論文の概要: SceneRAG: Scene-level Retrieval-Augmented Generation for Video Understanding
- arxiv url: http://arxiv.org/abs/2506.07600v1
- Date: Mon, 09 Jun 2025 10:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.900803
- Title: SceneRAG: Scene-level Retrieval-Augmented Generation for Video Understanding
- Title(参考訳): SceneRAG:Scene-level Retrieval-Augmented Generation for Video Understanding
- Authors: Nianbo Zeng, Haowen Hou, Fei Richard Yu, Si Shi, Ying Tiffany He,
- Abstract要約: SceneRAGは,映像を物語に一貫性のあるシーンに分割するフレームワークである。
各シーンについて、このフレームワークは視覚とテキストの両方のモダリティから情報を融合し、エンティティ関係を抽出する。
LongerVideosベンチマークの実験では、134時間以上の多様なコンテンツがあり、SceneRAGが以前のベースラインを大幅に上回っていることを確認した。
- 参考スコア(独自算出の注目度): 6.980340270823506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in retrieval-augmented generation (RAG) for video understanding, effectively understanding long-form video content remains underexplored due to the vast scale and high complexity of video data. Current RAG approaches typically segment videos into fixed-length chunks, which often disrupts the continuity of contextual information and fails to capture authentic scene boundaries. Inspired by the human ability to naturally organize continuous experiences into coherent scenes, we present SceneRAG, a unified framework that leverages large language models to segment videos into narrative-consistent scenes by processing ASR transcripts alongside temporal metadata. SceneRAG further sharpens these initial boundaries through lightweight heuristics and iterative correction. For each scene, the framework fuses information from both visual and textual modalities to extract entity relations and dynamically builds a knowledge graph, enabling robust multi-hop retrieval and generation that account for long-range dependencies. Experiments on the LongerVideos benchmark, featuring over 134 hours of diverse content, confirm that SceneRAG substantially outperforms prior baselines, achieving a win rate of up to 72.5 percent on generation tasks.
- Abstract(参考訳): ビデオ理解のための検索強化世代(RAG)の進歩にもかかわらず、ビデオデータの大規模化と複雑化により、長大なビデオコンテンツに対する効果的な理解は未探索のままである。
現在のRAGのアプローチは通常、動画を固定長のチャンクに分割する。
人間が自然に連続的な体験を一貫性のあるシーンに整理する能力に触発されて、大きな言語モデルを活用して、時間的メタデータとともにASRの文字起こしを処理することによって、動画を物語に一貫性のあるシーンに分割する統合フレームワークであるSceneRAGを紹介した。
SceneRAGはこれらの初期境界を、より軽量なヒューリスティックと反復的な修正によって強化する。
各シーンに対して、このフレームワークは、視覚とテキストの両方のモダリティから情報を融合してエンティティ関係を抽出し、知識グラフを動的に構築し、堅牢なマルチホップ検索と長距離依存を考慮した生成を可能にする。
LongerVideosベンチマークの実験では、134時間以上の多様なコンテンツがあり、SceneRAGが以前のベースラインを大幅に上回っており、生成タスクで最大72.5パーセントの勝利率を達成した。
関連論文リスト
- InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - WikiVideo: Article Generation from Multiple Videos [67.59430517160065]
現実の出来事に関する複数のビデオから情報を集約する高レベルなウィキペディアスタイルの記事を自動的に作成する難題を提示する。
WikiVideoは、専門家が書いた記事と、記事の主張を裏付ける厳密な注釈付きビデオからなるベンチマークである。
複数のビデオから記事を作成するためのインタラクティブな手法である共同記事生成(CAG)を提案する。
論文 参考訳(メタデータ) (2025-04-01T16:22:15Z) - VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos [25.770675590118547]
VideoRAGは、非常に長いコンテキストのビデオの処理と理解に特化して設計された最初の検索拡張生成フレームワークである。
我々の中心となる革新は、(i)グラフベースのテキスト知識をシームレスに統合し、(ii)視覚的特徴を効率的に保存するマルチモーダルコンテキストエンコーディングである。
論文 参考訳(メタデータ) (2025-02-03T17:30:19Z) - Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation [16.80010133425332]
長距離コヒーレンスとリッチコンテンツを備えた15秒ビデオを生成するために設計された,新しいビデオ拡散モデルであるPrestoを紹介する。
PrestoはVBench Semantic Scoreで78.5%、Dynamic Degreeで100%のスプリットを達成した。
論文 参考訳(メタデータ) (2024-12-02T09:32:36Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。