Fugu-MT 論文翻訳(概要): VideoRAG: Retrieval-Augmented Generation over Video Corpus

論文の概要: VideoRAG: Retrieval-Augmented Generation over Video Corpus

arxiv url: http://arxiv.org/abs/2501.05874v1
Date: Fri, 10 Jan 2025 11:17:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.210595
Title: VideoRAG: Retrieval-Augmented Generation over Video Corpus
Title（参考訳）: VideoRAG: ビデオコーポレーションによる検索機能強化
Authors: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang,
Abstract要約: VideoRAGは、クエリと関連性に基づいて関連動画を動的に検索する新しいフレームワークである。我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
参考スコア（独自算出の注目度）: 57.68536380621672
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、クエリに関連する外部知識を検索し、それを生成プロセスに組み込むことで、ファンデーションモデルにおいて事実的に誤った出力を生成するという問題に対処する強力な戦略である。しかしながら、既存のRAGアプローチは主にテキスト情報に重点を置いており、最近の進歩では画像を考えるようになり、イベント、プロセス、文脈の詳細をより効果的に表現できるマルチモーダルな知識の豊富な源であるビデオを見落としている。近年の研究では、応答生成プロセスにおけるビデオの統合について検討されているが、クエリに従って検索することなく、クエリ関連ビデオを事前定義するか、マルチモーダルなリッチさを生かさずに、動画をテキスト記述に変換するかのどちらかである。このような問題に対処するために,ビデオRAGは,クエリとの関連性に基づいて関連動画を動的に検索するだけでなく,出力生成における映像の視覚的・テキスト的情報も活用する新しいフレームワークである。さらに,本手法は近年のLVLM(Large Video Language Models)の進展を中心に展開され,検索と検索のシームレスな統合のためにビデオコンテンツの直接処理が可能となった。我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。

関連論文リスト

VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding [45.83476222676765]
Instructed Temporal Grounding for Videos (VideoITG) を提案する。 VideoITGの中核は、人間のアノテーションプロセスを明示的に模倣する自動アノテーションフレームワークであるVidThinkerパイプラインである。我々は,複数のマルチモーダルビデオ理解ベンチマークにおいて,ビデオITGが一貫した性能向上を実現していることを示す。
論文参考訳（メタデータ） (2025-07-17T17:59:59Z)
AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文参考訳（メタデータ） (2025-06-16T15:18:15Z)
WikiVideo: Article Generation from Multiple Videos [67.59430517160065]
現実の出来事に関する複数のビデオから情報を集約する高レベルなウィキペディアスタイルの記事を自動的に作成する難題を提示する。 WikiVideoは、専門家が書いた記事と、記事の主張を裏付ける厳密な注釈付きビデオからなるベンチマークである。複数のビデオから記事を作成するためのインタラクティブな手法である共同記事生成(CAG)を提案する。
論文参考訳（メタデータ） (2025-04-01T16:22:15Z)
VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos [25.770675590118547]
VideoRAGは、非常に長いコンテキストのビデオの処理と理解に特化して設計された最初の検索拡張生成フレームワークである。我々の中心となる革新は、(i)グラフベースのテキスト知識をシームレスに統合し、(ii)視覚的特徴を効率的に保存するマルチモーダルコンテキストエンコーディングである。
論文参考訳（メタデータ） (2025-02-03T17:30:19Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension [83.00346826110041]
Video-RAGはトレーニング不要で費用対効果の高いパイプラインで、視覚的に整列した補助テキストを使って、モダリティ間のアライメントを促進する。 72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-11-20T07:44:34Z)
GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。 GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
Towards Retrieval Augmented Generation over Large Video Libraries [0.0]
本稿では,相互運用可能なアーキテクチャによるVLQA(Video Library Question Answering)の課題を紹介する。本稿では,大規模言語モデル(LLM)を用いて検索クエリを生成し,関連ビデオモーメントを検索するシステムを提案する。回答生成モジュールは、ユーザクエリとメタデータを統合して、特定のビデオタイムスタンプでレスポンスを生成する。
論文参考訳（メタデータ） (2024-06-21T07:52:01Z)
TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment [42.557643515992005]
ビデオの理解は、相当量のWebビデオテキストデータが利用できるにもかかわらず、依然として課題である。ビデオ理解のための大規模言語モデル(LLM)を拡張する新しいアプローチであるテキストオンリー・プレアライメント(TOPA)を導入する。
論文参考訳（メタデータ） (2024-05-22T18:35:10Z)
iRAG: Advancing RAG for Videos with an Incremental Approach [3.486835161875852]
大規模なビデオコーパス内のすべてのコンテンツをテキスト記述に一回、前もって変換することは、高い処理時間を必要とする。 iRAGと呼ばれるインクリメンタルなRAGシステムを提案し、RAGを新たなインクリメンタルなワークフローで拡張し、ビデオデータのインタラクティブなクエリを可能にする。 iRAGは、大規模なビデオコーパスの効率的なインタラクティブクエリをサポートするインクリメンタルワークフローでRAGを拡張する最初のシステムである。
論文参考訳（メタデータ） (2024-04-18T16:38:02Z)
HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models [11.883785732720094]
本稿では,ビデオとテキストデータを拡張して,より一般化された特徴を学習する,新しいビデオテキスト学習パラダイムHaVTRを提案する。映像やテキストにリッチな情報をもたらすために,幻覚に基づく拡張手法を提案する。リッチなデータから、いくつかのビデオテキスト検索ベンチマークで広範な実験を行い、既存の手法よりもHaVTRの方が優れていることを示した。
論文参考訳（メタデータ） (2024-04-07T21:46:47Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文参考訳（メタデータ） (2024-03-25T17:59:03Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文参考訳（メタデータ） (2023-09-14T11:13:36Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。