論文の概要: Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2511.11910v2
- Date: Fri, 21 Nov 2025 17:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 14:08:26.062224
- Title: Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models
- Title(参考訳): 森と木を見る:長ビデオ多モーダル言語モデルのための問合せ対応トケナイザ
- Authors: Siyou Li, Huanan Wu, Juexi Shao, Yinghao Ma, Yujian Gan, Yihao Luo, Yuwei Wang, Dong Nie, Lu Wang, Wengqing Wu, Le Zhang, Massimo Poesio, Juntao Yu,
- Abstract要約: 長いビデオ理解シナリオのための視覚トークン選択モジュールであるQTSplusを提案する。
Qwen2.5-VLに統合され、ビジョンストリームを textbf89% まで圧縮し、長いビデオでは textbf28% でエンドツーエンドのレイテンシを低減する。
以上の結果から,QTSplusはMLLMを現実世界の長ビデオシナリオに拡張するための,効果的で汎用的なメカニズムであることが示唆された。
- 参考スコア(独自算出の注目度): 24.875526594002434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advances in the video understanding ability of multimodal large language models (MLLMs), long video understanding remains a challenge. One of the main issues is that the number of vision tokens grows linearly with video length, which causes an explosion in attention cost, memory, and latency. To solve this challenge, we present Query-aware Token Selector (\textbf{QTSplus}), a lightweight yet powerful visual token selection module that serves as an information gate between the vision encoder and LLMs. Given a text query and video tokens, QTSplus dynamically selects the most important visual evidence for the input text query by (i) scoring visual tokens via cross-attention, (ii) \emph{predicting} an instance-specific retention budget based on the complexity of the query, and (iii) \emph{selecting} Top-$n$ tokens with a differentiable straight-through estimator during training and a hard gate at inference. Furthermore, a small re-encoder preserves temporal order using absolute time information, enabling second-level localization while maintaining global coverage. Integrated into Qwen2.5-VL, QTSplus compresses the vision stream by up to \textbf{89\%} and reduces end-to-end latency by \textbf{28\%} on long videos. The evaluation on eight long video understanding benchmarks shows near-parity accuracy overall when compared with the original Qwen models and outperforms the original model by \textbf{+20.5} and \textbf{+5.6} points respectively on TempCompass direction and order accuracies. These results show that QTSplus is an effective, general mechanism for scaling MLLMs to real-world long-video scenarios while preserving task-relevant evidence.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の映像理解能力は近年進歩しているが、長いビデオ理解は依然として課題である。
主な課題の1つは、視覚トークンの数がビデオ長とともに直線的に増加し、注意力のコスト、メモリ、レイテンシが急増することである。
この課題を解決するために、視覚エンコーダとLCM間の情報ゲートとして機能する軽量かつ強力な視覚トークン選択モジュールであるクエリ対応トークンセレクタ(\textbf{QTSplus})を提案する。
テキストクエリとビデオトークンが与えられた場合、QTSplusは入力テキストクエリの最も重要な視覚的証拠を動的に選択する。
一 横断的注意により視覚的トークンを採点すること。
(ii) \emph{predicting} クエリの複雑さに基づいたインスタンス固有の保持予算、および
(iii) \emph{selecting} Top-$n$ tokens with a differentiable straight-through estimator during training and a hard gate at inference。
さらに、小さな再エンコーダは絶対時間情報を用いて時間順を保ち、グローバルなカバレッジを維持しながら第2レベルのローカライゼーションを可能にする。
QTSplus は Qwen2.5-VL に統合され、ビジョンストリームを \textbf{89\%} まで圧縮し、長いビデオでは \textbf{28\%} でエンドツーエンドのレイテンシを低減する。
8つの長いビデオ理解ベンチマークの評価は、元のQwenモデルと比較すると、全体としてほぼパリティの精度を示し、それぞれTempCompass方向と順序精度で、textbf{+20.5} と \textbf{+5.6} で元のモデルを上回っている。
これらの結果から,QTSplusは,タスク関連エビデンスを保持しつつ,MLLMを実世界の長ビデオシナリオに拡張するための,効果的で汎用的なメカニズムであることが示唆された。
関連論文リスト
- Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs [25.13186579764434]
Sparse-to-Dense(StD)は、2つの異なるモジュールを統合する新しいデコード戦略である。
StDはチューニング不要のプラグイン・アンド・プレイのソリューションで、最大1.94$times$ビデオ処理のウォールタイムスピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-25T14:09:28Z) - Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。
ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。
極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T17:34:06Z) - BIMBA: Selective-Scan Compression for Long-Range Video Question Answering [46.199493246921435]
長いビデオにおけるビデオ質問回答(VQA)は、関連する情報を抽出する上で重要な課題である。
長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:57:32Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Long Video Understanding with Learnable Retrieval in Video-Language Models [48.3525267216256]
本稿では,学習可能な検索ベースビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高いKビデオチャンクを特定し、選択する。
これにより、ビデオトークンの数を効果的に減らし、ノイズ干渉をなくし、システム性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。