論文の概要: MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2510.07915v1
- Date: Thu, 09 Oct 2025 08:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.947882
- Title: MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding
- Title(参考訳): MARC: 効率的なビデオ理解のためのメモリ拡張RLトーケン圧縮
- Authors: Peiran Wu, Zhuorui Yu, Yunze Liu, Chi-Hao Wu, Enmin Zhou, Junxiao Shen,
- Abstract要約: 構造的検索とRLに基づく蒸留を統合したMARCを提案する。
MARCは1フレームのトークンのみを使用してほぼベースラインの精度を達成する。
これにより、リソース制約のある環境での効率的なリアルタイムビデオ理解の可能性を示す。
- 参考スコア(独自算出の注目度): 13.02027465520324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of large language models (LLMs) has laid the foundation for multimodal models. However, visual language models (VLMs) still face heavy computational costs when extended from images to videos due to high frame rates and long durations. Token compression is a promising solution, yet most existing training-free methods cause information loss and performance degradation. To overcome this, we propose \textbf{Memory-Augmented Reinforcement Learning-based Token Compression (MARC)}, which integrates structured retrieval and RL-based distillation. MARC adopts a \textit{retrieve-then-compress} strategy using a \textbf{Visual Memory Retriever (VMR)} to select key clips and a \textbf{Compression Group Relative Policy Optimization (C-GRPO)} framework to distil reasoning ability from a teacher to a student model. Experiments on six video benchmarks show that MARC achieves near-baseline accuracy using only one frame's tokens -- reducing visual tokens by \textbf{95\%}, GPU memory by \textbf{72\%}, and latency by \textbf{23.9\%}. This demonstrates its potential for efficient, real-time video understanding in resource-constrained settings such as video QA, surveillance, and autonomous driving.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、マルチモーダルモデルの基礎を築いた。
しかしながら、視覚言語モデル(VLM)は、高いフレームレートと長い持続時間のために、画像からビデオへ拡張する際にも、計算コストが重い。
トークン圧縮は有望なソリューションであるが、既存のトレーニング不要な方法のほとんどは、情報損失と性能低下を引き起こす。
これを解決するために,構造化検索とRLに基づく蒸留を統合した「textbf{Memory-Augmented Reinforcement Learning-based Token Compression (MARC)」を提案する。
MARCは、キークリップを選択するために \textbf{Visual Memory Retriever (VMR) と、教師から学生モデルへの推論能力を排除するために \textbf{Compression Group Relative Policy Optimization (C-GRPO) フレームワークを使用して、 \textit{retrieve-then-compress} 戦略を採用している。
6つのビデオベンチマークの実験によると、MARCは1フレームのトークンのみを使用してほぼベースラインの精度を達成している。
これは、ビデオQA、監視、自律運転といったリソース制限された設定において、効率的なリアルタイムビデオ理解の可能性を示している。
関連論文リスト
- APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval [41.81696346270799]
現在の大規模言語モデル(LM)は時間レベルのビデオ理解に苦慮している。
bftextAdaptive textbfPivot MLbfVisual information textbfRetrieval (textbfAPVR)は、十分に重要な視覚情報を階層的に検索し保持する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T12:27:10Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - SweetTok: Semantic-Aware Spatial-Temporal Tokenizer for Compact Video Discretization [20.109136454526233]
本稿では,現在のビデオトークン化手法の限界を克服する新しいビデオトークン化ツールであるSweetTokを提案する。
SweetTokは、textbfDecoupled textbfAutotextbfEncoder (DQAE)を介して、異なる空間的および時間的クエリを通して視覚入力を圧縮する
SweetTok は UCF-101 データセット上で textbf42.8% w.r.t rFVD でビデオ再構成結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-12-11T13:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。