論文の概要: VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos
- arxiv url: http://arxiv.org/abs/2502.01549v1
- Date: Mon, 03 Feb 2025 17:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:58.945599
- Title: VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos
- Title(参考訳): VideoRAG:極長ビデオ付き検索機能付きジェネレーション
- Authors: Xubin Ren, Lingrui Xu, Long Xia, Shuaiqiang Wang, Dawei Yin, Chao Huang,
- Abstract要約: VideoRAGは、非常に長いコンテキストのビデオの処理と理解に特化して設計された最初の検索拡張生成フレームワークである。
我々の中心となる革新は、(i)グラフベースのテキスト知識をシームレスに統合し、(ii)視覚的特徴を効率的に保存するマルチモーダルコンテキストエンコーディングである。
- 参考スコア(独自算出の注目度): 25.770675590118547
- License:
- Abstract: Retrieval-Augmented Generation (RAG) has demonstrated remarkable success in enhancing Large Language Models (LLMs) through external knowledge integration, yet its application has primarily focused on textual content, leaving the rich domain of multi-modal video knowledge predominantly unexplored. This paper introduces VideoRAG, the first retrieval-augmented generation framework specifically designed for processing and understanding extremely long-context videos. Our core innovation lies in its dual-channel architecture that seamlessly integrates (i) graph-based textual knowledge grounding for capturing cross-video semantic relationships, and (ii) multi-modal context encoding for efficiently preserving visual features. This novel design empowers VideoRAG to process unlimited-length videos by constructing precise knowledge graphs that span multiple videos while maintaining semantic dependencies through specialized multi-modal retrieval paradigms. Through comprehensive empirical evaluation on our proposed LongerVideos benchmark-comprising over 160 videos totaling 134+ hours across lecture, documentary, and entertainment categories-VideoRAG demonstrates substantial performance compared to existing RAG alternatives and long video understanding methods. The source code of VideoRAG implementation and the benchmark dataset are openly available at: https://github.com/HKUDS/VideoRAG.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、外部知識の統合によるLarge Language Models (LLMs) の拡張において、顕著な成功を収めている。
本稿では,超長文ビデオの処理と理解に特化して設計された,最初の検索拡張生成フレームワークであるVideoRAGを紹介する。
私たちの中心となるイノベーションは、シームレスに統合するデュアルチャネルアーキテクチャにあります。
(i)ビデオ間のセマンティックな関係を捉えるためのグラフベースのテキスト知識
(II)視覚的特徴を効率的に保存するためのマルチモーダルコンテキスト符号化
この新しい設計により、ビデオRAGは、複数のビデオにまたがる正確な知識グラフを構築しながら、特殊なマルチモーダル検索パラダイムを通じてセマンティックな依存関係を維持することで、無制限のビデオを処理することができる。
提案したLongerVideosベンチマークの総合的評価を通じて,講義,ドキュメンタリー,エンターテイメントのカテゴリーで合計134時間以上の動画を収録した。
VideoRAGの実装とベンチマークデータセットのソースコードは、https://github.com/HKUDS/VideoRAGで公開されている。
関連論文リスト
- VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリと関連性に基づいて関連動画を動的に検索する新しいフレームワークである。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Unified Model for Video Understanding and Knowledge Embedding with
Heterogeneous Knowledge Graph Dataset [47.805378137676605]
マルチモーダルビデオエンティティと実りある常識関係を含む異種データセットを提案する。
実験により,映像理解の埋め込みと事実知識を組み合わせることで,コンテンツに基づく映像検索性能が向上することが示唆された。
また、VRTやVRVタスクにおいて従来のKGEベースの手法よりも優れた知識グラフの埋め込みを生成するのに役立つ。
論文 参考訳(メタデータ) (2022-11-19T09:00:45Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。