論文の概要: VNU-Bench: A Benchmarking Dataset for Multi-Source Multimodal News Video Understanding
- arxiv url: http://arxiv.org/abs/2601.03434v1
- Date: Tue, 06 Jan 2026 21:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.079476
- Title: VNU-Bench: A Benchmarking Dataset for Multi-Source Multimodal News Video Understanding
- Title(参考訳): VNU-Bench:マルチソースマルチモーダルニュースビデオ理解のためのベンチマークデータセット
- Authors: Zibo Liu, Muyang Li, Zhe Jiang, Shigang Chen,
- Abstract要約: 本稿では,ニュース領域におけるマルチソース・クロスビデオ理解のための最初のベンチマークであるVNU-Benchを紹介する。
様々な角度からマルチソース・マルチモーダル・ニュースを理解するための実験モデルに特有の新しい質問タイプを設計する。
データセットには429のニュースグループ、1,405の動画、2,501の高品質な質問が含まれている。
- 参考スコア(独自算出の注目度): 15.757734298648634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: News videos are carefully edited multimodal narratives that combine narration, visuals, and external quotations into coherent storylines. In recent years, there have been significant advances in evaluating multimodal large language models (MLLMs) for news video understanding. However, existing benchmarks largely focus on single-source, intra-video reasoning, where each report is processed in isolation. In contrast, real-world news consumption is inherently multi-sourced: the same event is reported by different outlets with complementary details, distinct narrative choices, and sometimes conflicting claims that unfold over time. Robust news understanding, therefore, requires models to compare perspectives from different sources, align multimodal evidence across sources, and synthesize multi-source information. To fill this gap, we introduce VNU-Bench, the first benchmark for multi-source, cross-video understanding in the news domain. We design a set of new question types that are unique in testing models' ability of understanding multi-source multimodal news from a variety of different angles. We design a novel hybrid human-model QA generation process that addresses the issues of scalability and quality control in building a large dataset for cross-source news understanding. The dataset comprises 429 news groups, 1,405 videos, and 2,501 high-quality questions. Comprehensive evaluation of both closed- and open-source multimodal models shows that VNU-Bench poses substantial challenges for current MLLMs.
- Abstract(参考訳): ニュースビデオは、ナレーション、視覚、外的引用を一貫性のあるストーリーラインに組み合わせた、注意深く編集されたマルチモーダルな物語である。
近年,ニュースビデオ理解のためのマルチモーダル大言語モデル (MLLM) の評価が著しく進歩している。
しかし、既存のベンチマークは主に単一ソース、ビデオ内推論に焦点を当てており、各レポートは独立して処理される。
対照的に、現実のニュース消費は本質的にマルチソースであり、同じ出来事は、補完的な詳細、異なる物語の選択、時には時間が経つにつれて広がる主張と矛盾する、様々なメディアによって報告される。
したがって、ロバストなニュース理解は、異なるソースからの視点を比較し、複数のソースをまたいだマルチモーダルエビデンスを調整し、マルチソース情報を合成するモデルを必要とする。
このギャップを埋めるために、ニュース領域におけるマルチソース・クロスビデオ理解のための最初のベンチマークであるVNU-Benchを紹介する。
様々な角度からマルチソース・マルチモーダル・ニュースを理解するための実験モデルに特有の新しい質問タイプを設計する。
我々は、クロスソースニュース理解のための大規模なデータセットを構築する際に、スケーラビリティと品質管理の問題に対処する、新しいハイブリッドなヒューマンモデルQA生成プロセスを設計する。
データセットには429のニュースグループ、1,405の動画、2,501の高品質な質問が含まれている。
クローズドおよびオープンソース両方のマルチモーダルモデルの包括的評価は、VNU-Benchが現在のMLLMに重大な課題をもたらすことを示している。
関連論文リスト
- ZoFia: Zero-Shot Fake News Detection with Entity-Guided Retrieval and Multi-LLM Interaction [14.012874564599272]
ZoFiaは、2段階のゼロショットフェイクニュース検出フレームワークである。
まず,ニュースコンテンツにおけるエンティティの重要性を定量化するために階層的サリエンスを導入する。
そこで我々はSC-MMRアルゴリズムを提案し,情報的かつ多様なキーワード群を効果的に選択する。
論文 参考訳(メタデータ) (2025-11-03T03:29:42Z) - Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - Emerging Properties in Unified Multimodal Pretraining [32.856334401494145]
マルチモーダル理解と生成をサポートするオープンソースの基盤モデルであるBAGELを紹介する。
BAGELは、大規模なインターリーブ付きテキスト、画像、ビデオ、Webデータからキュレートされた数兆のトークンに基づいて事前訓練された、統一されたデコーダのみのモデルである。
オープンソースの統一モデルでは、マルチモーダル生成と標準ベンチマークでの理解の両方において、大幅に優れています。
論文 参考訳(メタデータ) (2025-05-20T17:59:30Z) - MCiteBench: A Multimodal Benchmark for Generating Text with Citations [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は主にテキストのみのコンテンツに対する引用の生成に重点を置いており、マルチモーダルシナリオの課題はほとんど解明されていない。
マルチモーダルな文脈で引用文を生成するMLLMの能力を評価するための最初のベンチマークであるMCiteBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:12:39Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Multimodal Fake News Video Explanation: Dataset, Analysis and Evaluation [13.779579002878918]
我々は、2,672件のフェイクニュースビデオ投稿の新しいデータセットを開発し、現実のフェイクニュースビデオの4つの側面を確実に説明できる。
さらに,FakeVEをベンチマークするマルチモーダル変換器(Multimodal Relation Graph Transformer:MRGT)を提案する。
論文 参考訳(メタデータ) (2025-01-15T01:52:54Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。