Fugu-MT 論文翻訳(概要): VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

論文の概要: VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

arxiv url: http://arxiv.org/abs/2505.01481v4
Date: Sun, 26 Oct 2025 04:54:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 17:41:21.50739
Title: VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding
Title（参考訳）: VideoHallu: 合成ビデオ理解によるマルチモーダル幻覚の評価と緩和
Authors: Zongxia Li, Xiyang Wu, Guangyao Shi, Yubin Qin, Hongyang Du, Fuxiao Liu, Tianyi Zhou, Dinesh Manocha, Jordan Lee Boyd-Graber,
Abstract要約: 物理的な世界と対話するAIシステムには、真の視覚的理解が不可欠である。現在の評価では、主にトレーニングデータと同様の実際のビデオを使用する。物理的に不可能または論理的に矛盾する事象を描写するビデオを用いた負制御テストを提案する。
参考スコア（独自算出の注目度）: 70.00000053847738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have achieved strong results in video understanding, yet a key question remains: do they truly comprehend visual content or only learn shallow correlations between vision and language? Real visual understanding, especially of physics and common sense, is essential for AI systems that interact with the physical world. Current evaluations mostly use real-world videos similar to training data, so high benchmark scores may not reflect real reasoning ability. To address this, we propose negative-control tests using videos that depict physically impossible or logically inconsistent events. We introduce VideoHallu, a synthetic dataset of physics- and commonsense-violating scenes generated with Veo2, Sora, and Kling. It includes expert-annotated question-answer pairs across four categories of violations. Tests of leading VLMs (Qwen-2.5-VL, Video-R1, VideoChat-R1) show that, despite strong results on benchmarks such as MVBench and MMVU, they often miss these violations, exposing gaps in visual reasoning. Reinforcement learning fine-tuning on VideoHallu improves recognition of such violations without reducing standard benchmark performance. Our data is available at https://github.com/zli12321/VideoHallu.git.
Abstract（参考訳）: VLM(Vision-Language Models)はビデオ理解において大きな成果を上げているが、重要な疑問が残る。現実の視覚的理解、特に物理学と常識は、物理的な世界と相互作用するAIシステムにとって不可欠である。現在の評価では、トレーニングデータと同様の実際のビデオを使用することが多いため、ベンチマークスコアが高いと本当の推論能力が反映されない可能性がある。そこで本研究では,物理的に不可能あるいは論理的に矛盾する事象を描写したビデオを用いた負制御テストを提案する。本稿では,Veo2,Sora,Klingで生成された物理・常識違反シーンの合成データセットであるVideoHalluを紹介する。これには、専門家による4つのカテゴリの違反に関する質問と回答のペアが含まれる。主要なVLM(Qwen-2.5-VL, Video-R1, VideoChat-R1)のテストでは、MVBenchやMMVUのようなベンチマークの強い結果にもかかわらず、これらの違反を見逃し、視覚的推論のギャップを露呈することが示されている。 VideoHalluにおける強化学習の微調整は、標準的なベンチマーク性能を低下させることなく、違反の認識を改善する。我々のデータはhttps://github.com/zli12321/VideoHallu.git.comで入手できる。

関連論文リスト

Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。 Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文参考訳（メタデータ） (2025-05-27T16:05:01Z)
RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [19.373906873461703]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。 RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文参考訳（メタデータ） (2025-05-04T10:55:21Z)
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文参考訳（メタデータ） (2025-03-09T22:49:12Z)
VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding [1.1834200163382398]
ビデオ理解のためにMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。 VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。 DINO-HEALは,DINOv2からの空間塩分を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要な方法である。
論文参考訳（メタデータ） (2024-12-04T22:03:19Z)
VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
大型幻覚言語モデル(VLLM)は幻覚の傾向が広く認められている。時間力学における映像に基づく幻覚の評価に特化して設計されたベンチマークであるVidHalを紹介する。ベンチマークの明確な特徴は、各ビデオに関連する様々なレベルの幻覚を表すキャプションを慎重に作成することにある。
論文参考訳（メタデータ） (2024-11-25T06:17:23Z)
VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文参考訳（メタデータ） (2024-08-08T05:14:07Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文参考訳（メタデータ） (2024-03-20T11:05:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。