論文の概要: Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension
- arxiv url: http://arxiv.org/abs/2411.13093v3
- Date: Fri, 20 Dec 2024 12:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 13:01:24.498931
- Title: Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension
- Title(参考訳): Video-RAG: ビジュアルに整列した検索機能を備えたロングビデオコングリゲーション
- Authors: Yongdong Luo, Xiawu Zheng, Xiao Yang, Guilin Li, Haojia Lin, Jinfa Huang, Jiayi Ji, Fei Chao, Jiebo Luo, Rongrong Ji,
- Abstract要約: Video-RAGはトレーニング不要で費用対効果の高いパイプラインで、視覚的に整列した補助テキストを使って、モダリティ間のアライメントを促進する。
72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 83.00346826110041
- License:
- Abstract: Existing large video-language models (LVLMs) struggle to comprehend long videos correctly due to limited context. To address this problem, fine-tuning long-context LVLMs and employing GPT-based agents have emerged as promising solutions. However, fine-tuning LVLMs would require extensive high-quality data and substantial GPU resources, while GPT-based agents would rely on proprietary models (e.g., GPT-4o). In this paper, we propose Video Retrieval-Augmented Generation (Video-RAG), a training-free and cost-effective pipeline that employs visually-aligned auxiliary texts to help facilitate cross-modality alignment while providing additional information beyond the visual content. Specifically, we leverage open-source external tools to extract visually-aligned information from pure video data (e.g., audio, optical character, and object detection), and incorporate the extracted information into an existing LVLM as auxiliary texts, alongside video frames and queries, in a plug-and-play manner. Our Video-RAG offers several key advantages: (i) lightweight with low computing overhead due to single-turn retrieval; (ii) easy implementation and compatibility with any LVLM; and (iii) significant, consistent performance gains across long video understanding benchmarks, including Video-MME, MLVU, and LongVideoBench. Notably, our model demonstrates superior performance over proprietary models like Gemini-1.5-Pro and GPT-4o when utilized with a 72B model.
- Abstract(参考訳): 既存のビデオ言語モデル(LVLM)は、文脈が限られているため、長いビデオの正確な理解に苦慮している。
この問題に対処するために、細調整の長いLVLMとGPTベースのエージェントが有望な解決策として登場した。
しかし、微調整のLVLMは広範な高品質のデータとGPUリソースを必要とし、GPTベースのエージェントはプロプライエタリなモデル(例えばGPT-4o)に依存している。
本稿では、視覚コンテンツ以外の追加情報を提供しながら、モダリティ間のアライメントを容易にするために、視覚的に整列した補助テキストを利用するトレーニングフリーで費用対効果の高いパイプラインであるVideo Retrieval-Augmented Generation (Video-RAG)を提案する。
具体的には、オープンソース外部ツールを活用して、純粋なビデオデータ(音声、光学文字、オブジェクト検出など)から視覚的に整列した情報を抽出し、抽出した情報を既存のLVLMにプラグイン・アンド・プレイ方式で、ビデオフレームやクエリとともに補助テキストとして組み込む。
私たちのVideo-RAGには、いくつかの大きな利点があります。
(i)シングルターン検索による計算オーバーヘッドの少ない軽量化。
(ii)どんなLVLMとも容易に実装・互換性ができ、かつ
3) Video-MME,MLVU,LongVideoBenchなど,長いビデオ理解ベンチマークにおいて,一貫したパフォーマンス向上が見られた。
特に,72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - AdaCM$^2$: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction [10.579335027350263]
AdaCM$2$は、ビデオストリーム上のビデオテキストアライメントに対する適応型クロスモダリティメモリリダクションアプローチである。
最大65%のGPUメモリ消費削減で、LVUデータセットの複数のタスク間で4.5%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T18:04:13Z) - Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:59:55Z) - Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision [24.568643475808564]
Video Self-Training with augmented Reasoning (Video-STaR)は、最初のビデオセルフトレーニングアプローチである。
Video-STaRは、ビデオインストラクションチューニングにラベル付きビデオデータセットを利用することができる。
論文 参考訳(メタデータ) (2024-07-08T17:59:42Z) - LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - PG-Video-LLaVA: Pixel Grounding Large Video-Language Models [52.83065081926238]
PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
論文 参考訳(メタデータ) (2023-11-22T14:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。