論文の概要: Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.01649v1
- Date: Mon, 02 Feb 2026 05:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.913864
- Title: Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning
- Title(参考訳): 強化学習による効率的な映像理解のための貢献型トークン圧縮
- Authors: Yinchao Ma, Qiang Zhou, Zhibin Wang, Xianing Chen, Hanqing Yang, Jun Song, Bo Zheng,
- Abstract要約: CaCoVIDはtextbfVIDeo 理解のための新しいトークン選択アルゴリズムである
まず,ビデオトークンの組み合わせを選択するためのポリシーネットワークを優先する強化学習ベースのフレームワークを提案する。
第2に,オンライン組み合わせ空間サンプリングによるポリシー最適化アルゴリズムを提案し,ビデオトークンの組み合わせに対する探索空間を劇的に削減する。
- 参考スコア(独自算出の注目度): 32.030660835097926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video large language models have demonstrated remarkable capabilities in video understanding tasks. However, the redundancy of video tokens introduces significant computational overhead during inference, limiting their practical deployment. Many compression algorithms are proposed to prioritize retaining features with the highest attention scores to minimize perturbations in attention computations. However, the correlation between attention scores and their actual contribution to correct answers remains ambiguous. To address the above limitation, we propose a novel \textbf{C}ontribution-\textbf{a}ware token \textbf{Co}mpression algorithm for \textbf{VID}eo understanding (\textbf{CaCoVID}) that explicitly optimizes the token selection policy based on the contribution of tokens to correct predictions. First, we introduce a reinforcement learning-based framework that optimizes a policy network to select video token combinations with the greatest contribution to correct predictions. This paradigm shifts the focus from passive token preservation to active discovery of optimal compressed token combinations. Secondly, we propose a combinatorial policy optimization algorithm with online combination space sampling, which dramatically reduces the exploration space for video token combinations and accelerates the convergence speed of policy optimization. Extensive experiments on diverse video understanding benchmarks demonstrate the effectiveness of CaCoVID. Codes will be released.
- Abstract(参考訳): ビデオ大言語モデルは、ビデオ理解タスクにおいて顕著な能力を示した。
しかし、ビデオトークンの冗長性は推論中にかなりの計算オーバーヘッドをもたらし、実際の展開を制限する。
多くの圧縮アルゴリズムは、注意計算における摂動を最小限に抑えるために、最も注意スコアの高い保持特徴を優先するように提案されている。
しかし、注意点と実際の正しい回答への貢献の相関はあいまいである。
上記の制限に対処するため, トークンのコントリビューションに基づいてトークン選択ポリシーを明示的に最適化し, 予測を正すため, トークン選択ポリシーを明示的に最適化する, 新規な \textbf{C}ontribution-\textbf{a}ware token \textbf{Co}mpressionアルゴリズムを提案する。
まず,ルールネットワークを最適化した強化学習ベースのフレームワークを導入し,ビデオトークンの組み合わせを選択し,正しい予測に最も貢献する。
このパラダイムは、パッシブトークン保存から最適な圧縮トークンの組み合わせのアクティブな発見へと焦点を移す。
第2に,オンライン組合せ空間サンプリングを用いた組合せポリシー最適化アルゴリズムを提案し,ビデオトークンの組み合わせの探索空間を劇的に削減し,ポリシー最適化の収束速度を高速化する。
多様なビデオ理解ベンチマークに関する大規模な実験は、CaCoVIDの有効性を実証している。
コードはリリースされる。
関連論文リスト
- InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression [114.03378443007074]
現在のトークンライザは、すべてのコンテンツを固定レートで厳格に圧縮し、冗長性や情報損失につながる。
本稿では,適応型ビデオトークン化のための原則的フレームワークであるInfoTokを紹介する。
我々は,適応トークン化を実現するトランスベースの適応圧縮機を開発した。
論文 参考訳(メタデータ) (2025-12-18T17:13:59Z) - FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs [23.801172170798132]
LLaVA-Scissorは、マルチモーダルな大規模言語モデルのために設計された、トレーニング不要なトークン圧縮戦略である。
本稿では,セマンティック・コネクテッド・コンポーネント(SCC)のアプローチを活用し,包括的セマンティック・カバレッジを確保することを提案する。
我々は,LLaVA-Scissorのトークン圧縮性能を多様なビデオ理解ベンチマークで広範囲に評価する。
論文 参考訳(メタデータ) (2025-06-27T02:29:58Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。