論文の概要: WikiVideo: Article Generation from Multiple Videos
- arxiv url: http://arxiv.org/abs/2504.00939v1
- Date: Tue, 01 Apr 2025 16:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:53.252766
- Title: WikiVideo: Article Generation from Multiple Videos
- Title(参考訳): WikiVideo: 複数のビデオからの記事生成
- Authors: Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme,
- Abstract要約: 現実の出来事に関する複数のビデオから情報を集約する高レベルなウィキペディアスタイルの記事を自動的に作成する難題を提示する。
WikiVideoは、専門家が書いた記事と、記事の主張を裏付ける厳密な注釈付きビデオからなるベンチマークである。
複数のビデオから記事を作成するためのインタラクティブな手法である共同記事生成(CAG)を提案する。
- 参考スコア(独自算出の注目度): 67.59430517160065
- License:
- Abstract: We present the challenging task of automatically creating a high-level Wikipedia-style article that aggregates information from multiple diverse videos about real-world events, such as natural disasters or political elections. Videos are intuitive sources for retrieval-augmented generation (RAG), but most contemporary RAG workflows focus heavily on text and existing methods for video-based summarization focus on low-level scene understanding rather than high-level event semantics. To close this gap, we introduce WikiVideo, a benchmark consisting of expert-written articles and densely annotated videos that provide evidence for articles' claims, facilitating the integration of video into RAG pipelines and enabling the creation of in-depth content that is grounded in multimodal sources. We further propose Collaborative Article Generation (CAG), a novel interactive method for article creation from multiple videos. CAG leverages an iterative interaction between an r1-style reasoning model and a VideoLLM to draw higher level inferences about the target event than is possible with VideoLLMs alone, which fixate on low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in both oracle retrieval and RAG settings and find that CAG consistently outperforms alternative methods, while suggesting intriguing avenues for future work.
- Abstract(参考訳): 自然災害や政治選挙など、現実の出来事に関する多種多様なビデオから情報を集約する、ウィキペディア風の記事を自動的に作成する難題を提示する。
ビデオは、検索強化生成(RAG)のための直感的な情報源であるが、現代のRAGワークフローのほとんどは、テキストに重点を置いており、ビデオベースの要約のための既存の手法は、ハイレベルなイベントセマンティクスではなく、低レベルなシーン理解に重点を置いている。
このギャップを埋めるために、私たちはWikiVideoを紹介します。これは、専門家が書いた記事と、記事の主張の証拠を提供する密集した注釈付きビデオからなるベンチマークで、RAGパイプラインへのビデオの統合を容易にし、マルチモーダルソースに根ざした深いコンテンツの作成を可能にします。
さらに,複数ビデオから記事を作成するためのインタラクティブな手法である協調記事生成(CAG)を提案する。
CAGは、r1スタイルの推論モデルとVideoLLM間の反復的な相互作用を活用して、低レベルの視覚的特徴に固定するVideoLLMだけで可能なよりも高いレベルのイベントを推論する。
オラクル検索とRAG設定の両方で最先端のビデオLLMとCAGをベンチマークし、CAGが代替手法を一貫して上回り、将来的な作業への道のりを示唆する。
関連論文リスト
- VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos [25.770675590118547]
VideoRAGは、非常に長いコンテキストのビデオの処理と理解に特化して設計された最初の検索拡張生成フレームワークである。
我々の中心となる革新は、(i)グラフベースのテキスト知識をシームレスに統合し、(ii)視覚的特徴を効率的に保存するマルチモーダルコンテキストエンコーディングである。
論文 参考訳(メタデータ) (2025-02-03T17:30:19Z) - VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。
VideoRAGは近年のLVLM(Large Video Language Models)を利用している。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。