論文の概要: VideoRAG: Retrieval-Augmented Generation over Video Corpus
- arxiv url: http://arxiv.org/abs/2501.05874v2
- Date: Tue, 04 Mar 2025 07:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:12:31.712199
- Title: VideoRAG: Retrieval-Augmented Generation over Video Corpus
- Title(参考訳): VideoRAG: ビデオコーポレーションによる検索機能強化
- Authors: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang,
- Abstract要約: VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。
VideoRAGは近年のLVLM(Large Video Language Models)を利用している。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 57.68536380621672
- License:
- Abstract: Retrieval-Augmented Generation (RAG) is a powerful strategy for improving the factual accuracy of models by retrieving external knowledge relevant to queries and incorporating it into the generation process. However, existing approaches primarily focus on text, with some recent advancements considering images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing contextual details more effectively than any other modality. While very recent studies explore the use of videos in response generation, they either predefine query-associated videos without retrieval or convert videos into textual descriptions losing multimodal richness. To tackle these, we introduce VideoRAG, a framework that not only dynamically retrieves videos based on their relevance with queries but also utilizes both visual and textual information. The operation of VideoRAG is powered by recent Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and the seamless integration of retrieved videos jointly with queries for response generation. Also, inspired by that the context size of LVLMs may not be sufficient to process all frames in extremely long videos and not all frames are equally important, we introduce a video frame selection mechanism to extract the most informative subset of frames, along with a strategy to extract textual information from videos (as it can aid the understanding of video content) when their subtitles are not available. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines. Code is available at https://github.com/starsuzi/VideoRAG.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、クエリに関連する外部知識を取得して生成プロセスに組み込むことにより、モデルの事実精度を向上させるための強力な戦略である。
しかし、既存のアプローチは主にテキストに焦点をあてており、最近の画像の進歩は、他のどのモダリティよりも文脈的詳細を効果的に表現できるマルチモーダルな知識の豊富な源であるビデオを見落としている。
近年の研究では、応答生成におけるビデオの利用について検討されているが、検索せずにクエリ関連動画を事前に定義したり、マルチモーダルな豊かさを損なう動画をテキスト記述に変換するなどしている。
このような問題に対処するため,VoiceRAGは,クエリと関連性に基づいて動的に映像を検索するだけでなく,視覚情報やテキスト情報も活用するフレームワークである。
ビデオRAGの動作は、検索のためにビデオコンテンツの直接処理と、検索したビデオと応答生成のためのクエリとのシームレスな統合を可能にする、最近のLVLM(Large Video Language Models)によって実現されている。
また、LVLMのコンテキストサイズは、非常に長いビデオで全てのフレームを処理するのに十分ではなく、すべてのフレームが等しく重要であるわけではないことに着想を得て、ビデオの最も情報性の高いサブセットを抽出するためのビデオフレーム選択機構を導入し、サブタイトルが入手できないときにビデオからテキスト情報を抽出する(ビデオコンテンツを理解するのに役立つ)戦略を導入する。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
コードはhttps://github.com/starsuzi/VideoRAG.comで公開されている。
関連論文リスト
- VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos [25.770675590118547]
VideoRAGは、非常に長いコンテキストのビデオの処理と理解に特化して設計された最初の検索拡張生成フレームワークである。
我々の中心となる革新は、(i)グラフベースのテキスト知識をシームレスに統合し、(ii)視覚的特徴を効率的に保存するマルチモーダルコンテキストエンコーディングである。
論文 参考訳(メタデータ) (2025-02-03T17:30:19Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Towards Retrieval Augmented Generation over Large Video Libraries [0.0]
本稿では,相互運用可能なアーキテクチャによるVLQA(Video Library Question Answering)の課題を紹介する。
本稿では,大規模言語モデル(LLM)を用いて検索クエリを生成し,関連ビデオモーメントを検索するシステムを提案する。
回答生成モジュールは、ユーザクエリとメタデータを統合して、特定のビデオタイムスタンプでレスポンスを生成する。
論文 参考訳(メタデータ) (2024-06-21T07:52:01Z) - iRAG: Advancing RAG for Videos with an Incremental Approach [3.486835161875852]
大規模なビデオコーパス内のすべてのコンテンツをテキスト記述に一回、前もって変換することは、高い処理時間を必要とする。
iRAGと呼ばれるインクリメンタルなRAGシステムを提案し、RAGを新たなインクリメンタルなワークフローで拡張し、ビデオデータのインタラクティブなクエリを可能にする。
iRAGは、大規模なビデオコーパスの効率的なインタラクティブクエリをサポートするインクリメンタルワークフローでRAGを拡張する最初のシステムである。
論文 参考訳(メタデータ) (2024-04-18T16:38:02Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。
本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-09-14T11:13:36Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。