論文の概要: VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos
- arxiv url: http://arxiv.org/abs/2505.01481v1
- Date: Fri, 02 May 2025 15:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.144282
- Title: VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos
- Title(参考訳): VideoHallu: 合成ビデオのためのマルチモーダル幻覚の評価と緩和
- Authors: Zongxia Li, Xiyang Wu, Yubin Qin, Guangyao Shi, Hongyang Du, Dinesh Manocha, Tianyi Zhou, Jordan Lee Boyd-Graber,
- Abstract要約: 私たちはVeo2、Sora、Klingといったモデルの合成ビデオを含むベンチマークであるVideoHalluを紹介します。
GPT-4o, Gemini-2.5-Pro, Qwen-2.5-VL, Video-R1 や VideoChat-R1 など,いくつかの SoTA MLLM の評価を行った。
結果は,特に反例統合において顕著な精度向上を示した。
- 参考スコア(独自算出の注目度): 54.16233954353802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic video generation with foundation models has gained attention for its realism and wide applications. While these models produce high-quality frames, they often fail to respect common sense and physical laws, resulting in abnormal content. Existing metrics like VideoScore emphasize general quality but ignore such violations and lack interpretability. A more insightful approach is using multi-modal large language models (MLLMs) as interpretable evaluators, as seen in FactScore. Yet, MLLMs' ability to detect abnormalities in synthetic videos remains underexplored. To address this, we introduce VideoHallu, a benchmark featuring synthetic videos from models like Veo2, Sora, and Kling, paired with expert-designed QA tasks solvable via human-level reasoning across various categories. We assess several SoTA MLLMs, including GPT-4o, Gemini-2.5-Pro, Qwen-2.5-VL, and newer models like Video-R1 and VideoChat-R1. Despite strong real-world performance on MVBench and MovieChat, these models still hallucinate on basic commonsense and physics tasks in synthetic settings, underscoring the challenge of hallucination. We further fine-tune SoTA MLLMs using Group Relative Policy Optimization (GRPO) on real and synthetic commonsense/physics data. Results show notable accuracy gains, especially with counterexample integration, advancing MLLMs' reasoning capabilities. Our data is available at https://github.com/zli12321/VideoHallu.
- Abstract(参考訳): 基礎モデルによる合成ビデオ生成は、そのリアリズムと幅広い応用に注目されている。
これらのモデルは高品質なフレームを生成するが、しばしば常識や物理法則を尊重せず、異常な内容をもたらす。
VideoScoreのような既存のメトリクスは、一般的な品質を強調しているが、そのような違反を無視し、解釈しやすさを欠いている。
より洞察に富んだアプローチは、FactScoreで見られるように、解釈可能な評価子としてマルチモーダルな大規模言語モデル(MLLM)を使用することである。
しかし、MLLMが合成ビデオの異常を検知する能力は、まだ解明されていない。
これを解決するために、Veo2、Sora、Klingといったモデルの合成ビデオを特徴とするベンチマークであるVideoHalluを紹介した。
GPT-4o, Gemini-2.5-Pro, Qwen-2.5-VL, Video-R1 や VideoChat-R1 など,いくつかの SoTA MLLM の評価を行った。
MVBenchとMovieChatの実際の性能は高いが、これらのモデルは相変わらず合成環境での基本的なコモンセンスと物理タスクに幻覚を与え、幻覚の課題を浮き彫りにした。
さらに、実・合成コモンセンス/物理データに基づいて、グループ相対ポリシー最適化(GRPO)を用いてSoTA MLLMを微調整する。
結果,特に反例統合では,MLLMの推論能力が向上することが明らかとなった。
私たちのデータはhttps://github.com/zli12321/VideoHallu.comで公開されています。
関連論文リスト
- RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [19.373906873461703]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。
RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文 参考訳(メタデータ) (2025-05-04T10:55:21Z) - VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding [1.1834200163382398]
ビデオ理解のためにMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。
VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。
DINO-HEALは,DINOv2からの空間塩分を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要な方法である。
論文 参考訳(メタデータ) (2024-12-04T22:03:19Z) - VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
大型幻覚言語モデル(VLLM)は幻覚の傾向が広く認められている。
時間力学における映像に基づく幻覚の評価に特化して設計されたベンチマークであるVidHalを紹介する。
ベンチマークの明確な特徴は、各ビデオに関連する様々なレベルの幻覚を表すキャプションを慎重に作成することにある。
論文 参考訳(メタデータ) (2024-11-25T06:17:23Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文 参考訳(メタデータ) (2024-03-20T11:05:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。