論文の概要: Recurrent Attention-based Token Selection for Efficient Streaming Video-LLMs
- arxiv url: http://arxiv.org/abs/2510.17364v1
- Date: Mon, 20 Oct 2025 10:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.394034
- Title: Recurrent Attention-based Token Selection for Efficient Streaming Video-LLMs
- Title(参考訳): 効率的なストリーミングビデオLLMのための繰り返しアテンションに基づくトークン選択
- Authors: Vaggelis Dorovatas, Soroush Seifi, Gunshi Gupta, Rahaf Aljundi,
- Abstract要約: 本稿では,標準ビデオ-LLMと互換性のあるトレーニングフリーな手法を提案する。
注意に基づく選択によって、パフォーマンス損失を最小限に抑えながら、重要でない視覚トークンの95%を破棄することができます。
本手法は,ストリーミングビデオベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 7.06290511446344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Language Models (Video-LLMs) excel at understanding videos in-context, provided they have full access to the video when answering queries. However, these models face challenges in streaming scenarios where hour-long videos must be processed online, and questions need timely responses. In this work, we propose a training-free approach compatible with standard Video-LLMs, leveraging three key concepts: 1) LLM-informed selection of visual tokens to identify those that the LLM has attended to and contributed to its understanding of each short clip. Our attention-based selection allows us to discard up to ~95% of unimportant visual tokens with minimal performance loss; 2) Recurrent processing of past selected tokens to generate temporally coherent understanding of each processed clip; 3) Caption-based question answering for lightweight and accurate responses. Our method achieves state-of-the-art performance on streaming video benchmarks, striking a balance between efficiency and effectiveness.
- Abstract(参考訳): ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、クエリ応答時にビデオにフルアクセスできることを条件として、ビデオのコンテキスト内での理解に長けている。
しかし、これらのモデルは、1時間の動画をオンラインで処理しなければならないストリーミングシナリオにおいて課題に直面しており、質問にはタイムリーな応答が必要である。
本稿では,3つの重要な概念を活かした,標準ビデオLLMと互換性のないトレーニングフリーアプローチを提案する。
1) LLMが出席した人物を特定するための視覚トークンの選択を指示し, 各ショートクリップの理解に寄与した。
注意に基づく選択によって、パフォーマンスロスを最小限に抑えながら、重要でない視覚トークンの最大95%を破棄することができます。
2 過去の選択されたトークンの繰り返し処理により、各処理されたクリップの時間的コヒーレントな理解を発生させる。
3) 軽量で正確な応答に対するキャプションベースの質問応答。
提案手法は,ストリーミングビデオベンチマークにおける最先端性能を実現し,効率と効率のバランスを崩す。
関連論文リスト
- FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering [0.6107667071306521]
長時間のエゴセントリックなビデオに対する質問応答のためのフレームワークであるFocusGraphを開発した。
我々は軽量なトレーニング可能なScene-Caption LLMセレクタを使用し、グラフベースのキャプションに基づいてクエリ関連クリップを選択する。
次に、トレーニング不要なPatch-wise Sparse-Flow Retention (PSFR) 法を設計し、その結果のクリップ列からテキストを選択する。
論文 参考訳(メタデータ) (2026-03-04T18:14:00Z) - An Empirical Study for Representations of Videos in Video Question Answering via MLLMs [4.726627693005334]
マルチモーダルな大言語モデルは近年,ビデオ質問応答において顕著な進歩を遂げている。
ビデオ表現がMLLMに最も有効なのか、また、異なるモダリティがタスクの精度と計算効率のバランスをとるのかは、まだ不明である。
論文 参考訳(メタデータ) (2025-10-14T09:02:22Z) - From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding [43.82717677801915]
ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:43:01Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - Long Video Understanding with Learnable Retrieval in Video-Language Models [48.3525267216256]
本稿では,学習可能な検索ベースビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高いKビデオチャンクを特定し、選択する。
これにより、ビデオトークンの数を効果的に減らし、ノイズ干渉をなくし、システム性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。