Fugu-MT 論文翻訳(概要): VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

論文の概要: VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

arxiv url: http://arxiv.org/abs/2505.01481v2
Date: Fri, 16 May 2025 16:58:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:12.978246
Title: VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding
Title（参考訳）: VideoHallu: 合成ビデオ理解によるマルチモーダル幻覚の評価と緩和
Authors: Zongxia Li, Xiyang Wu, Guangyao Shi, Yubin Qin, Hongyang Du, Tianyi Zhou, Dinesh Manocha, Jordan Lee Boyd-Graber,
Abstract要約: VideoHalluは、Veo2、Sora、Klingといったモデルによって生成された合成ビデオから構築された3000以上のビデオQAペアのベンチマークである。マルチモーダル大言語モデル(MLLM)の批判的思考能力は,人間に知覚的に明らかだが,言語先行により幻覚することが多い異常に対して評価する。これらのモデルはMVBenchやMovieChatのような実世界の多くのベンチマークでよく機能するが、合成ビデオにおける物理に基づく基本的な推論と常識的推論に苦戦している。
参考スコア（独自算出の注目度）: 54.16233954353802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthetic video generation has gained significant attention for its realism and broad applications, but remains prone to violations of common sense and physical laws. This highlights the need for reliable abnormality detectors that understand such principles and are robust to hallucinations. To address this, we introduce VideoHallu, a benchmark of over 3,000 video QA pairs built from synthetic videos generated by models like Veo2, Sora, and Kling, paired with expert-crafted counterintuitive QA to evaluate the critical thinking abilities of Multi-modal Large Language Models (MLLMs) on abnormalities that are perceptually obvious to humans but often hallucinated due to language priors. VideoHallu evaluates MLLMs' abnormality detection abilities with examples across alignment, consistency, commonsense, and physics. We benchmark SOTA MLLMs, including GPT-4o, Gemini-2.5-Pro, Qwen2.5-VL, Video-R1, and VideoChat-R1. We observe that these models perform well on many real-world benchmarks like MVBench and MovieChat, but still struggle with basic physics-based and commonsense reasoning in synthetic videos. We further show that post-training with Group Relative Policy Optimization (GRPO), using curriculum learning on datasets combining video QA with counterintuitive commonsense and physics reasoning over real and synthetic videos, improves MLLMs' abnormality detection and critical thinking, demonstrating the value of targeted training for improving their understanding of commonsense and physical laws.
Abstract（参考訳）: 合成ビデオ生成は、そのリアリズムと幅広い応用において大きな注目を集めているが、一般的な感覚や物理法則に反する傾向にある。このことは、そのような原理を理解し、幻覚に対して堅牢な信頼性のある異常検知器の必要性を強調している。これを解決するために、Veo2、Sora、Klingといったモデルによって生成された合成ビデオから構築された3000以上のビデオQAペアのベンチマークであるVideoHalluを紹介し、専門家が作成した反直観的QAと組み合わせて、人間にとって知覚的に明らかだが言語先行によって幻覚されるような異常に対して、MLLM(Multi-modal Large Language Model)の批判的思考能力を評価する。 VideoHalluはMLLMの異常検出能力を評価する。 GPT-4o, Gemini-2.5-Pro, Qwen2.5-VL, Video-R1, VideoChat-R1 など SOTA MLLM のベンチマークを行った。これらのモデルはMVBenchやMovieChatのような実世界の多くのベンチマークでよく機能するが、合成ビデオにおける物理に基づく基本的な推論と常識的推論に苦戦している。さらに,ビデオQAと逆直観的コモンセンスと物理推論を組み合わせたデータセットのカリキュラムを用いたグループ相対政策最適化(GRPO)によるポストトレーニングにより,MLLMの異常検出と批判的思考を改善し,コモンセンスと物理法則の理解を向上させるための目標トレーニングの価値を示す。

関連論文リスト

Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。 Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文参考訳（メタデータ） (2025-05-27T16:05:01Z)
RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [19.373906873461703]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。 RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文参考訳（メタデータ） (2025-05-04T10:55:21Z)
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文参考訳（メタデータ） (2025-03-09T22:49:12Z)
VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding [1.1834200163382398]
ビデオ理解のためにMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。 VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。 DINO-HEALは,DINOv2からの空間塩分を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要な方法である。
論文参考訳（メタデータ） (2024-12-04T22:03:19Z)
VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
大型幻覚言語モデル(VLLM)は幻覚の傾向が広く認められている。時間力学における映像に基づく幻覚の評価に特化して設計されたベンチマークであるVidHalを紹介する。ベンチマークの明確な特徴は、各ビデオに関連する様々なレベルの幻覚を表すキャプションを慎重に作成することにある。
論文参考訳（メタデータ） (2024-11-25T06:17:23Z)
VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文参考訳（メタデータ） (2024-08-08T05:14:07Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文参考訳（メタデータ） (2024-03-20T11:05:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。