論文の概要: Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing
- arxiv url: http://arxiv.org/abs/2603.12254v1
- Date: Thu, 12 Mar 2026 17:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.291642
- Title: Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing
- Title(参考訳): Attend Before Attention: 自動回帰ゲームによる効率よくスケーラブルなビデオ理解
- Authors: Baifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin,
- Abstract要約: AutoGazeは、ViTやMLLMで処理される前にパッチを削除する軽量モジュールである。
ユーザが指定したエラー閾値内でビデオを再構成できる最小限のマルチスケールパッチを自動回帰的に選択する。
ビジュアルトークンを4倍から100倍に減らし、ViTとMLLMを最大19倍に高速化し、1Kフレームの4K解像度ビデオにMLLMをスケールできるようにする。
- 参考スコア(独自算出の注目度): 112.56180129013138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs) have advanced general-purpose video understanding but struggle with long, high-resolution videos -- they process every pixel equally in their vision transformers (ViTs) or LLMs despite significant spatiotemporal redundancy. We introduce AutoGaze, a lightweight module that removes redundant patches before processed by a ViT or an MLLM. Trained with next-token prediction and reinforcement learning, AutoGaze autoregressively selects a minimal set of multi-scale patches that can reconstruct the video within a user-specified error threshold, eliminating redundancy while preserving information. Empirically, AutoGaze reduces visual tokens by 4x-100x and accelerates ViTs and MLLMs by up to 19x, enabling scaling MLLMs to 1K-frame 4K-resolution videos and achieving superior results on video benchmarks (e.g., 67.0% on VideoMME). Furthermore, we introduce HLVid: the first high-resolution, long-form video QA benchmark with 5-minute 4K-resolution videos, where an MLLM scaled with AutoGaze improves over the baseline by 10.1% and outperforms the previous best MLLM by 4.5%. Project page: https://autogaze.github.io/.
- Abstract(参考訳): MLLM(Multi-modal large language model)は、汎用的なビデオ理解が進んでいるが、長時間の高解像度ビデオに苦慮している。
私たちは、ViTやMLLMで処理する前に冗長なパッチを削除する軽量モジュールであるAutoGazeを紹介します。
次世代の予測と強化学習でトレーニングされたAutoGazeは、ユーザが指定したエラーしきい値内でビデオを再構成し、情報を保存しながら冗長性を排除できる、最小限のマルチスケールパッチを自動回帰的に選択する。
実証的に、AutoGazeは視覚トークンを4x-100xに減らし、ViTとMLLMを最大19倍に高速化し、1Kフレームの4K解像度ビデオに拡張し、ビデオベンチマーク(ビデオMMEでは67.0%)で優れた結果を達成する。
さらに,5分間の4K解像度ビデオを用いた最初の高解像度長ビデオQAベンチマークであるHLVidを紹介し,AutoGazeでスケールしたMLLMがベースラインよりも10.1%向上し,以前の最高のMLLMよりも4.5%向上した。
プロジェクトページ: https://autogaze.github.io/.com
関連論文リスト
- Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。
OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。
また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2025-12-09T09:40:20Z) - LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding [29.719450799231705]
VLM(Vision-Language Models)は、多フレーム入力によってフレームレベルの理解能力を得る。
ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、視覚機能内の時間的関係をキャプチャするが、高品質のビデオテキストデータセットの不足によって制限される。
本稿では,クエリ・アテンション・ビデオ圧縮機構を備えた新しい手法である軽量ビデオ圧縮(LVC)を提案する。
論文 参考訳(メタデータ) (2025-04-09T12:51:10Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。