論文の概要: MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2510.07915v1
- Date: Thu, 09 Oct 2025 08:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.947882
- Title: MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding
- Title(参考訳): MARC: 効率的なビデオ理解のためのメモリ拡張RLトーケン圧縮
- Authors: Peiran Wu, Zhuorui Yu, Yunze Liu, Chi-Hao Wu, Enmin Zhou, Junxiao Shen,
- Abstract要約: 構造的検索とRLに基づく蒸留を統合したMARCを提案する。
MARCは1フレームのトークンのみを使用してほぼベースラインの精度を達成する。
これにより、リソース制約のある環境での効率的なリアルタイムビデオ理解の可能性を示す。
- 参考スコア(独自算出の注目度): 13.02027465520324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of large language models (LLMs) has laid the foundation for multimodal models. However, visual language models (VLMs) still face heavy computational costs when extended from images to videos due to high frame rates and long durations. Token compression is a promising solution, yet most existing training-free methods cause information loss and performance degradation. To overcome this, we propose \textbf{Memory-Augmented Reinforcement Learning-based Token Compression (MARC)}, which integrates structured retrieval and RL-based distillation. MARC adopts a \textit{retrieve-then-compress} strategy using a \textbf{Visual Memory Retriever (VMR)} to select key clips and a \textbf{Compression Group Relative Policy Optimization (C-GRPO)} framework to distil reasoning ability from a teacher to a student model. Experiments on six video benchmarks show that MARC achieves near-baseline accuracy using only one frame's tokens -- reducing visual tokens by \textbf{95\%}, GPU memory by \textbf{72\%}, and latency by \textbf{23.9\%}. This demonstrates its potential for efficient, real-time video understanding in resource-constrained settings such as video QA, surveillance, and autonomous driving.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、マルチモーダルモデルの基礎を築いた。
しかしながら、視覚言語モデル(VLM)は、高いフレームレートと長い持続時間のために、画像からビデオへ拡張する際にも、計算コストが重い。
トークン圧縮は有望なソリューションであるが、既存のトレーニング不要な方法のほとんどは、情報損失と性能低下を引き起こす。
これを解決するために,構造化検索とRLに基づく蒸留を統合した「textbf{Memory-Augmented Reinforcement Learning-based Token Compression (MARC)」を提案する。
MARCは、キークリップを選択するために \textbf{Visual Memory Retriever (VMR) と、教師から学生モデルへの推論能力を排除するために \textbf{Compression Group Relative Policy Optimization (C-GRPO) フレームワークを使用して、 \textit{retrieve-then-compress} 戦略を採用している。
6つのビデオベンチマークの実験によると、MARCは1フレームのトークンのみを使用してほぼベースラインの精度を達成している。
これは、ビデオQA、監視、自律運転といったリソース制限された設定において、効率的なリアルタイムビデオ理解の可能性を示している。
関連論文リスト
- Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval [41.81696346270799]
現在の大規模言語モデル(LM)は時間レベルのビデオ理解に苦慮している。
bftextAdaptive textbfPivot MLbfVisual information textbfRetrieval (textbfAPVR)は、十分に重要な視覚情報を階層的に検索し保持する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T12:27:10Z) - METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding [55.38256656122857]
トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークであるMETokを提案する。
我々はMETokが情報的視覚トークンを動的に選択することで効率と精度の最適なトレードオフを実現することを示す。
例えば、LongVA-7BをMETokに装備すると、80.6%のFLOPが削減され、93.5%のKVキャッシュメモリが節約される。
論文 参考訳(メタデータ) (2025-06-03T13:19:41Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - SweetTok: Semantic-Aware Spatial-Temporal Tokenizer for Compact Video Discretization [20.109136454526233]
本稿では,現在のビデオトークン化手法の限界を克服する新しいビデオトークン化ツールであるSweetTokを提案する。
SweetTokは、textbfDecoupled textbfAutotextbfEncoder (DQAE)を介して、異なる空間的および時間的クエリを通して視覚入力を圧縮する
SweetTok は UCF-101 データセット上で textbf42.8% w.r.t rFVD でビデオ再構成結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-12-11T13:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。