論文の概要: Dynamic Token Compression for Efficient Video Understanding through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.26365v1
- Date: Fri, 27 Mar 2026 12:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.50762
- Title: Dynamic Token Compression for Efficient Video Understanding through Reinforcement Learning
- Title(参考訳): 強化学習による効率的な映像理解のための動的トークン圧縮
- Authors: Shida Wang, YongXiang Hua, Zhou Tao, Haoyu Cao, Linli Xu,
- Abstract要約: SCORE(Surprise-augmented token Compression via Reinforcement Learning)は、適応的なトークン圧縮ポリシーを学ぶ統一フレームワークである。
SCOREは、元の性能の99.5%を10%の保持率で保ちながら、16倍のプリフィルスピードアップを達成する。
- 参考スコア(独自算出の注目度): 22.28268642142352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models have demonstrated remarkable capabilities in video understanding, yet face prohibitive computational costs and performance degradation from ''context rot'' due to massive visual token redundancy. Existing compression strategies typically rely on heuristics or fixed transformations that are often decoupled from the downstream task objectives, limiting their adaptability and effectiveness. To address this, we propose SCORE (Surprise-augmented token COmpression via REinforcement learning), a unified framework that learns an adaptive token compression policy. SCORE introduces a lightweight policy network conditioned on a surprise-augmented state representation that incorporates inter-frame residuals to explicitly capture temporal dynamics and motion saliency. We optimize this policy using a group-wise reinforcement learning scheme with a split-advantage estimator, stabilized by a two-stage curriculum transferring from static pseudo-videos to real dynamic videos. Extensive experiments on diverse video understanding benchmarks demonstrate that SCORE significantly outperforms state-of-the-art baselines. Notably, SCORE achieves a 16x prefill speedup while preserving 99.5% of original performance at a 10% retention ratio, offering a scalable solution for efficient long-form video understanding.
- Abstract(参考訳): マルチモーダル大規模言語モデルは、ビデオ理解において顕著な能力を示したが、巨大な視覚的トークンの冗長性により、計算コストが禁止され、"context rot"による性能劣化に直面している。
既存の圧縮戦略は、通常、下流のタスク目標から切り離されることが多いヒューリスティックや固定された変換に依存し、適応性と有効性を制限する。
そこで我々は,適応型トークン圧縮ポリシーを学習する統一フレームワークSCORE(Surprise-augmented token COmpression via Reinforcement Learning)を提案する。
SCOREでは、フレーム間の残差を組み込んで、時間的ダイナミクスとモーション・サリエンシを明示的にキャプチャする、サプライズ強化された状態表現を前提とした軽量なポリシネットワークを導入している。
静的な擬似ビデオから実動的ビデオへの2段階のカリキュラム転送によって安定化された分割アドバンテージ推定器を用いたグループワイズ強化学習方式を用いて、このポリシーを最適化する。
多様なビデオ理解ベンチマークに関する大規模な実験は、SCOREが最先端のベースラインを大幅に上回っていることを示している。
特にSCOREは、オリジナルのパフォーマンスの99.5%を10%の保持率で保存しながら、16倍のプリフィルスピードアップを実現し、より効率的なロングフォームビデオ理解のためのスケーラブルなソリューションを提供する。
関連論文リスト
- InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression [114.03378443007074]
現在のトークンライザは、すべてのコンテンツを固定レートで厳格に圧縮し、冗長性や情報損失につながる。
本稿では,適応型ビデオトークン化のための原則的フレームワークであるInfoTokを紹介する。
我々は,適応トークン化を実現するトランスベースの適応圧縮機を開発した。
論文 参考訳(メタデータ) (2025-12-18T17:13:59Z) - Conditional Video Generation for High-Efficiency Video Compression [48.32125957038998]
本稿では,条件付き拡散モデルを利用した映像圧縮フレームワークを提案する。
具体的には、映像圧縮を条件生成タスクとして再構成し、生成モデルがスパース信号から映像を合成する。
論文 参考訳(メタデータ) (2025-07-21T06:16:27Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。
DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。
実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:30:11Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。