Fugu-MT 論文翻訳(概要): VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos

論文の概要: VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos

arxiv url: http://arxiv.org/abs/2505.01481v1
Date: Fri, 02 May 2025 15:58:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.144282
Title: VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos
Title（参考訳）: VideoHallu: 合成ビデオのためのマルチモーダル幻覚の評価と緩和
Authors: Zongxia Li, Xiyang Wu, Yubin Qin, Guangyao Shi, Hongyang Du, Dinesh Manocha, Tianyi Zhou, Jordan Lee Boyd-Graber,
Abstract要約: 私たちはVeo2、Sora、Klingといったモデルの合成ビデオを含むベンチマークであるVideoHalluを紹介します。 GPT-4o, Gemini-2.5-Pro, Qwen-2.5-VL, Video-R1 や VideoChat-R1 など,いくつかの SoTA MLLM の評価を行った。結果は,特に反例統合において顕著な精度向上を示した。
参考スコア（独自算出の注目度）: 54.16233954353802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthetic video generation with foundation models has gained attention for its realism and wide applications. While these models produce high-quality frames, they often fail to respect common sense and physical laws, resulting in abnormal content. Existing metrics like VideoScore emphasize general quality but ignore such violations and lack interpretability. A more insightful approach is using multi-modal large language models (MLLMs) as interpretable evaluators, as seen in FactScore. Yet, MLLMs' ability to detect abnormalities in synthetic videos remains underexplored. To address this, we introduce VideoHallu, a benchmark featuring synthetic videos from models like Veo2, Sora, and Kling, paired with expert-designed QA tasks solvable via human-level reasoning across various categories. We assess several SoTA MLLMs, including GPT-4o, Gemini-2.5-Pro, Qwen-2.5-VL, and newer models like Video-R1 and VideoChat-R1. Despite strong real-world performance on MVBench and MovieChat, these models still hallucinate on basic commonsense and physics tasks in synthetic settings, underscoring the challenge of hallucination. We further fine-tune SoTA MLLMs using Group Relative Policy Optimization (GRPO) on real and synthetic commonsense/physics data. Results show notable accuracy gains, especially with counterexample integration, advancing MLLMs' reasoning capabilities. Our data is available at https://github.com/zli12321/VideoHallu.
Abstract（参考訳）: 基礎モデルによる合成ビデオ生成は、そのリアリズムと幅広い応用に注目されている。これらのモデルは高品質なフレームを生成するが、しばしば常識や物理法則を尊重せず、異常な内容をもたらす。 VideoScoreのような既存のメトリクスは、一般的な品質を強調しているが、そのような違反を無視し、解釈しやすさを欠いている。より洞察に富んだアプローチは、FactScoreで見られるように、解釈可能な評価子としてマルチモーダルな大規模言語モデル(MLLM)を使用することである。しかし、MLLMが合成ビデオの異常を検知する能力は、まだ解明されていない。これを解決するために、Veo2、Sora、Klingといったモデルの合成ビデオを特徴とするベンチマークであるVideoHalluを紹介した。 GPT-4o, Gemini-2.5-Pro, Qwen-2.5-VL, Video-R1 や VideoChat-R1 など,いくつかの SoTA MLLM の評価を行った。 MVBenchとMovieChatの実際の性能は高いが、これらのモデルは相変わらず合成環境での基本的なコモンセンスと物理タスクに幻覚を与え、幻覚の課題を浮き彫りにした。さらに、実・合成コモンセンス/物理データに基づいて、グループ相対ポリシー最適化(GRPO)を用いてSoTA MLLMを微調整する。結果,特に反例統合では,MLLMの推論能力が向上することが明らかとなった。私たちのデータはhttps://github.com/zli12321/VideoHallu.comで公開されています。

関連論文リスト

Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。 Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文参考訳（メタデータ） (2025-05-27T16:05:01Z)
RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [19.373906873461703]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。 RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文参考訳（メタデータ） (2025-05-04T10:55:21Z)
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文参考訳（メタデータ） (2025-03-09T22:49:12Z)
VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding [1.1834200163382398]
ビデオ理解のためにMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。 VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。 DINO-HEALは,DINOv2からの空間塩分を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要な方法である。
論文参考訳（メタデータ） (2024-12-04T22:03:19Z)
VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
大型幻覚言語モデル(VLLM)は幻覚の傾向が広く認められている。時間力学における映像に基づく幻覚の評価に特化して設計されたベンチマークであるVidHalを紹介する。ベンチマークの明確な特徴は、各ビデオに関連する様々なレベルの幻覚を表すキャプションを慎重に作成することにある。
論文参考訳（メタデータ） (2024-11-25T06:17:23Z)
VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文参考訳（メタデータ） (2024-08-08T05:14:07Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文参考訳（メタデータ） (2024-03-20T11:05:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。