論文の概要: VNU-Bench: A Benchmarking Dataset for Multi-Source Multimodal News Video Understanding
- arxiv url: http://arxiv.org/abs/2601.03434v1
- Date: Tue, 06 Jan 2026 21:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.079476
- Title: VNU-Bench: A Benchmarking Dataset for Multi-Source Multimodal News Video Understanding
- Title(参考訳): VNU-Bench:マルチソースマルチモーダルニュースビデオ理解のためのベンチマークデータセット
- Authors: Zibo Liu, Muyang Li, Zhe Jiang, Shigang Chen,
- Abstract要約: 本稿では,ニュース領域におけるマルチソース・クロスビデオ理解のための最初のベンチマークであるVNU-Benchを紹介する。
様々な角度からマルチソース・マルチモーダル・ニュースを理解するための実験モデルに特有の新しい質問タイプを設計する。
データセットには429のニュースグループ、1,405の動画、2,501の高品質な質問が含まれている。
- 参考スコア(独自算出の注目度): 15.757734298648634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: News videos are carefully edited multimodal narratives that combine narration, visuals, and external quotations into coherent storylines. In recent years, there have been significant advances in evaluating multimodal large language models (MLLMs) for news video understanding. However, existing benchmarks largely focus on single-source, intra-video reasoning, where each report is processed in isolation. In contrast, real-world news consumption is inherently multi-sourced: the same event is reported by different outlets with complementary details, distinct narrative choices, and sometimes conflicting claims that unfold over time. Robust news understanding, therefore, requires models to compare perspectives from different sources, align multimodal evidence across sources, and synthesize multi-source information. To fill this gap, we introduce VNU-Bench, the first benchmark for multi-source, cross-video understanding in the news domain. We design a set of new question types that are unique in testing models' ability of understanding multi-source multimodal news from a variety of different angles. We design a novel hybrid human-model QA generation process that addresses the issues of scalability and quality control in building a large dataset for cross-source news understanding. The dataset comprises 429 news groups, 1,405 videos, and 2,501 high-quality questions. Comprehensive evaluation of both closed- and open-source multimodal models shows that VNU-Bench poses substantial challenges for current MLLMs.
- Abstract(参考訳): ニュースビデオは、ナレーション、視覚、外的引用を一貫性のあるストーリーラインに組み合わせた、注意深く編集されたマルチモーダルな物語である。
近年,ニュースビデオ理解のためのマルチモーダル大言語モデル (MLLM) の評価が著しく進歩している。
しかし、既存のベンチマークは主に単一ソース、ビデオ内推論に焦点を当てており、各レポートは独立して処理される。
対照的に、現実のニュース消費は本質的にマルチソースであり、同じ出来事は、補完的な詳細、異なる物語の選択、時には時間が経つにつれて広がる主張と矛盾する、様々なメディアによって報告される。
したがって、ロバストなニュース理解は、異なるソースからの視点を比較し、複数のソースをまたいだマルチモーダルエビデンスを調整し、マルチソース情報を合成するモデルを必要とする。
このギャップを埋めるために、ニュース領域におけるマルチソース・クロスビデオ理解のための最初のベンチマークであるVNU-Benchを紹介する。
様々な角度からマルチソース・マルチモーダル・ニュースを理解するための実験モデルに特有の新しい質問タイプを設計する。
我々は、クロスソースニュース理解のための大規模なデータセットを構築する際に、スケーラビリティと品質管理の問題に対処する、新しいハイブリッドなヒューマンモデルQA生成プロセスを設計する。
データセットには429のニュースグループ、1,405の動画、2,501の高品質な質問が含まれている。
クローズドおよびオープンソース両方のマルチモーダルモデルの包括的評価は、VNU-Benchが現在のMLLMに重大な課題をもたらすことを示している。
関連論文リスト
- Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - MCiteBench: A Multimodal Benchmark for Generating Text with Citations [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は主にテキストのみのコンテンツに対する引用の生成に重点を置いており、マルチモーダルシナリオの課題はほとんど解明されていない。
マルチモーダルな文脈で引用文を生成するMLLMの能力を評価するための最初のベンチマークであるMCiteBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:12:39Z) - Multimodal Fake News Video Explanation: Dataset, Analysis and Evaluation [13.779579002878918]
我々は、2,672件のフェイクニュースビデオ投稿の新しいデータセットを開発し、現実のフェイクニュースビデオの4つの側面を確実に説明できる。
さらに,FakeVEをベンチマークするマルチモーダル変換器(Multimodal Relation Graph Transformer:MRGT)を提案する。
論文 参考訳(メタデータ) (2025-01-15T01:52:54Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。