論文の概要: One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2604.14149v1
- Date: Wed, 15 Apr 2026 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.675584
- Title: One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding
- Title(参考訳): 高精選フレームに1つのトークン:長時間ビデオ理解のための極端圧縮を目指して
- Authors: Zheyu Zhang, Ziqi Pang, Shixing Chen, Xiang Hao, Vimal Bhat, Yu-Xiong Wang,
- Abstract要約: 長いビデオ理解は、膨大なフレーム数のため、視覚制御モデル(VLM)にとって本質的に困難である。
最終的な大言語モデル層において,フレーム毎のエンフォーントークンに対する極端ビデオトークン圧縮について検討する。
これにより、VLMは2x-4倍のフレームを消化でき、性能が向上する。
- 参考スコア(独自算出の注目度): 51.08792182064565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long video understanding is inherently challenging for vision-language models (VLMs) because of the extensive number of frames. With each video frame typically expanding into tens or hundreds of tokens, the limited context length of large language models (LLMs) forces the VLMs to perceive the frames sparsely and lose temporal information. To address this, we explore extreme video token compression towards \emph{one token per frame} at the final LLM layer. Our key insight is that heuristic-based compression, widely adopted by previous methods, is prone to information loss, and this necessitates supervising LLM layers into \emph{learnable} and \emph{progressive} modules for \emph{token-level compression} (LP-Comp). Such compression enables our VLM to digest 2x-4x more frames with improved performance. To further increase the token efficiency, we investigate \emph{frame-level compression}, which selects the frames most relevant to the queries via the internal attention scores of the LLM layers, named \emph{question-conditioned compression} (QC-Comp). As a notable distinction from previous studies, we mitigate the position bias of LLM attention in long contexts, \emph{i.e.}, the over-concentration on the beginning and end of a sequence, by splitting long videos into short segments and employing local attention. Collectively, our combined \emph{token-level} and \emph{frame-level} leads to an e\textbf{x}treme compression model for long video understanding, named \textbf{\name}, achieving a significantly larger compression ratio and enabling denser frame sampling. Our \name is finetuned from VideoChat-Flash with a data-efficient \emph{supervised compression tuning} stage that only requires 2.5\% of the supervised fine-tuning data, yet boosts the accuracy from 42.9\% to 46.2\% on LVBench and enhances multiple other long video benchmarks.
- Abstract(参考訳): 長いビデオ理解は、膨大なフレーム数のため、視覚言語モデル(VLM)にとって本質的に困難である。
通常、ビデオフレームは数十から数百のトークンに拡張されるため、大きな言語モデル(LLM)のコンテキスト長は制限され、VLMはフレームをわずかに知覚し、時間的情報を失う。
これを解決するために,最後のLCM層において,フレーム毎のemph{one token}に対する極端ビデオトークン圧縮について検討する。
我々の重要な洞察は、従来の方法で広く採用されているヒューリスティックな圧縮は、情報損失を招きがちであり、このことは、LP-Comp の \emph{learnable} および \emph{progressive} モジュールに LLM レイヤを監視する必要があるということである。
このような圧縮により、VLMは2x-4倍のフレームを消化でき、性能が向上する。
トークン効率をさらに高めるために,LLM層の内部アテンションスコアを用いてクエリに最も関係のあるフレームを選択する「emph{frame-level compression}」 (QC-Comp) について検討する。
従来の研究と顕著な区別として、長い動画を短いセグメントに分割し、局所的な注意を生かして、シーケンスの開始と終了に過度に集中する、長い文脈におけるLLM注意の位置バイアスを緩和する。
集合的に,<emph{token-level} と<emph{frame-level} を組み合わせることで,長いビデオ理解のための e\textbf{x}treme 圧縮モデルが得られる。
我々の名前は、データ効率の良い \emph{supervised compression tuning} ステージで VideoChat-Flash から微調整され、監督された微調整データの 2.5 % しか必要としないが、LVBench では 42.9 % から 46.2 % に精度を向上し、他の長いビデオベンチマークも強化する。
関連論文リスト
- Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models [24.875526594002434]
長いビデオ理解シナリオのための視覚トークン選択モジュールであるQTSplusを提案する。
Qwen2.5-VLに統合され、ビジョンストリームを textbf89% まで圧縮し、長いビデオでは textbf28% でエンドツーエンドのレイテンシを低減する。
以上の結果から,QTSplusはMLLMを現実世界の長ビデオシナリオに拡張するための,効果的で汎用的なメカニズムであることが示唆された。
論文 参考訳(メタデータ) (2025-11-14T22:41:27Z) - MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding [13.02027465520324]
構造的検索とRLに基づく蒸留を統合したMARCを提案する。
MARCは1フレームのトークンのみを使用してほぼベースラインの精度を達成する。
これにより、リソース制約のある環境での効率的なリアルタイムビデオ理解の可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T08:07:19Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。