論文の概要: Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs
- arxiv url: http://arxiv.org/abs/2602.15318v1
- Date: Tue, 17 Feb 2026 02:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.961616
- Title: Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs
- Title(参考訳): Sparrow:ビデオLLMにおける投機的復号のためのビジュアルセマンティックグリップによるテキストアンコールウィンドウアテンション
- Authors: Libo Zhang, Zhaoning Zhang, Wangyang Hong, Peng Qiao, Dongsheng Li,
- Abstract要約: Video Large Language Models (Vid-LLMs) は通常、キーバリューキャッシュの爆発とコンテキストウィンドウのミスマッチによる注意の希釈と負の視覚的利得の罠に陥る。
本研究では,まず,隠れ状態の再利用によって視覚的に認識可能なウィンドウアテンションを利用して,視覚的計算を対象モデルに完全にオフロードするSparrowフレームワークを提案する。
実験の結果,25kの視覚トークンでも平均2.82倍のスピードアップを実現し,長いシーケンスでの性能劣化を効果的に解消できることがわかった。
- 参考スコア(独自算出の注目度): 28.766303423132722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although speculative decoding is widely used to accelerate Vision-Language Models (VLMs) inference, it faces severe performance collapse when applied to Video Large Language Models (Vid-LLMs). The draft model typically falls into the trap of attention dilution and negative visual gain due to key-value cache explosion and context window mismatches. We observe a visual semantic internalization phenomenon in Vid-LLMs, indicating that critical visual semantics are implicitly encoded into text hidden states during deep-layer interactions, which renders raw visual inputs structurally redundant during deep inference. To address this, we propose the Sparrow framework, which first utilizes visually-aware text-anchored window attention via hidden state reuse to fully offload visual computation to the target model, and leverages intermediate-layer visual state bridging to train the draft model with semantic-rich intermediate states, thereby filtering out low-level visual noise. Additionally, a multi-token prediction strategy is introduced to bridge the training-inference distribution shift. Experiments show that Sparrow achieves an average speedup of 2.82x even with 25k visual tokens, effectively resolving the performance degradation in long sequences and offering a practical solution for real-time long video tasks.
- Abstract(参考訳): 投機的復号化はビジョン・ランゲージモデル(VLM)推論の高速化に広く用いられているが、ビデオ大言語モデル(Vid-LLM)に適用した場合、大幅な性能低下に直面している。
ドラフトモデルは一般的に、キーバリューキャッシュの爆発とコンテキストウィンドウのミスマッチによる注意の希釈と負の視覚的利得の罠に陥る。
我々は,Vid-LLMにおける視覚的セマンティックな内部化現象を観察し,重要な視覚的セマンティクスが深層間相互作用において暗黙的にテキスト隠蔽状態に符号化され,深層間相互作用において生の視覚的入力が構造的に冗長であることを示す。
これを解決するために,まず隠れ状態の再利用を通じて視覚的に認識されたテキストアンカレッドウィンドウアテンションを利用して,対象モデルに視覚的計算を完全にオフロードするSparrowフレームワークを提案し,また,中間層の視覚的状態ブリッジを活用して,セマンティックリッチな中間状態でドラフトモデルを訓練し,低レベルな視覚ノイズを除去する。
さらに、トレーニング-推論分布シフトをブリッジするために、マルチトークン予測戦略を導入する。
実験の結果,25kの視覚トークンを用いても平均2.82倍のスピードアップを実現し,長いシーケンスのパフォーマンス劣化を効果的に解消し,リアルタイムビデオタスクに実用的なソリューションを提供することがわかった。
関連論文リスト
- Chatting with Images for Introspective Visual Thinking [50.7747647794877]
「画像の変更」は、視覚操作を言語誘導の機能変調として再編成する新しいフレームワークである。
表現型言語プロンプトの指導の下で、モデルは複数の画像領域上で動的に共同再符号化を行う。
ViLaVTは、複雑なマルチイメージとビデオベースの空間推論タスクにおいて、強力で一貫した改善を実現する。
論文 参考訳(メタデータ) (2026-02-11T17:42:37Z) - ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models [41.59364061354628]
Image-to-Video(I2V)生成は、参照画像とテキストプロンプトからビデオを合成することを目的としている。
既存のI2Vモデルは視覚的一貫性を優先する。
この2つのガイダンスを効果的に組み合わせて、テキストプロンプトへの強い固執を確実にする方法は、まだ検討されていない。
論文 参考訳(メタデータ) (2026-01-12T07:48:26Z) - CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models [66.56549019393042]
ビデオ言語モデル(VLM)は、強いマルチモーダル理解を実現するが、特に行動や時間秩序を推論する場合、幻覚を起こす傾向にある。
本稿では,シーンコンテキストを保ちながら,アクションや時間構造が異なる映像を合成する,対物映像生成のためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T10:03:07Z) - VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning [69.64660280965971]
VideoAnchorは、サブスペース親和性を活用してフレーム間の視覚的手がかりを強化するプラグイン・アンド・プレイモジュールである。
InternVL2-8BとQ2.5VL-72Bのベンチマークで一貫した性能向上を示した。
私たちのコードはhttps://github.com/feufhd/VideoAnchor.comで公開されます。
論文 参考訳(メタデータ) (2025-09-29T17:54:04Z) - HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in Vision-Language Models [23.98782884568504]
視覚言語モデル(HiViS)における投機的復号化のためのドナーからの視覚トークンの隠蔽を提案する。
HiViSは、視覚言語モデルにおける投機的復号化の非効率性を緩和する明示的単純入力分解フレームワークである。
提案手法は, プリフィルシーケンス長を目標VLM入力の0.7%-1.3%に圧縮する。
論文 参考訳(メタデータ) (2025-09-28T15:05:21Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。