論文の概要: Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval
- arxiv url: http://arxiv.org/abs/2512.08410v1
- Date: Tue, 09 Dec 2025 09:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.898912
- Title: Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval
- Title(参考訳): ワンショットクリップ検索による多モーダル大言語モデルの効果的かつ効率的なビデオ理解に向けて
- Authors: Tao Chen, Shaobo Ju, Qiong Wu, Chenxin Fang, Kun Zhang, Jun Peng, Hui Li, Yiyi Zhou, Rongrong Ji,
- Abstract要約: ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。
OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。
また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
- 参考スコア(独自算出の注目度): 57.88666884515147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to excessive memory overhead, most Multimodal Large Language Models (MLLMs) can only process videos of limited frames. In this paper, we propose an effective and efficient paradigm to remedy this shortcoming, termed One-shot video-Clip based Retrieval AuGmentation (OneClip-RAG). Compared with existing video RAG methods, OneClip-RAG makes full use of the merits of video clips for augmented video understanding in terms of both knowledge integrity and semantic coherence. Besides, it is also equipped with a novel query-guided video chunking algorithm that can unify clip chunking and cross-modal retrieval in one processing step, avoiding redundant computations. To improve instruction following, we further propose a new dataset called SynLongVideo and design a progressive training regime for OneClip-RAG. OneClip-RAG is plugged into five recent MLLMs and validated on a set of long-video benchmarks. Experimental results not only show the obvious performance gains by OneClip-RAG over MLLMs, e.g., boosting InternLV2 8B and Qwen2-VL 7B to the level of GPT-4o on MLVU, but also show its superior efficiency in handling long videos. e.g., enabling LLaVA-Video understand up to an hour of videos in less than 2.2 minutes on a single 4090 GPU.
- Abstract(参考訳): メモリの過大なオーバーヘッドのため、ほとんどのマルチモーダル大言語モデル(MLLM)は限られたフレームのビデオしか処理できない。
本稿では,One-shot video-Clip based Retrieval AuGmentation (OneClip-RAG) と呼ばれる,この欠点を解消するための効果的かつ効率的なパラダイムを提案する。
既存のビデオRAG法と比較して、OneClip-RAGは、知識の整合性とセマンティックコヒーレンスの両方の観点から、ビデオ理解のためのビデオクリップの利点をフル活用している。
また、1つの処理ステップでクリップチャンキングとクロスモーダル検索を統一し、冗長な計算を回避できる新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
さらに,SynLongVideoと呼ばれる新しいデータセットを提案し,OneClip-RAGのプログレッシブトレーニングシステムの設計を行う。
OneClip-RAGは5つのMLLMにプラグインされ、一連の長ビデオベンチマークで検証される。
InternLV2 8B と Qwen2-VL 7B を MLVU 上の GPT-4o レベルまで引き上げるなど, MLLM 上での OneClip-RAG による明らかな性能向上だけでなく, 長編ビデオの処理効率も向上した。
LLaVA-Videoは、1台の4090 GPU上で2.2分未満で最大1時間のビデオを理解することができる。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension [83.00346826110041]
Video-RAGはトレーニング不要で費用対効果の高いパイプラインで、視覚的に整列した補助テキストを使って、モダリティ間のアライメントを促進する。
72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-20T07:44:34Z) - AdaCM$^2$: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction [10.579335027350263]
AdaCM$2$は、ビデオストリーム上のビデオテキストアライメントに対する適応型クロスモダリティメモリリダクションアプローチである。
最大65%のGPUメモリ消費削減で、LVUデータセットの複数のタスク間で4.5%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T18:04:13Z) - VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges [39.666361965650836]
VideoLLaMBは、長いビデオ理解のためのフレームワークである。
SceneTilingアルゴリズムは、ビデオをコヒーレントなセマンティックユニットに分割する。
VideoLLaMBは1つのNvidia A100 GPUを使用して最大320フレームを処理する。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。