論文の概要: ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding
- arxiv url: http://arxiv.org/abs/2508.21496v2
- Date: Tue, 02 Sep 2025 17:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.716985
- Title: ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding
- Title(参考訳): ELV-Halluc:ロングビデオ理解におけるセマンティックアグリゲーション幻覚のベンチマーク
- Authors: Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu,
- Abstract要約: ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。
モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。
また,ELV-Halluc と Video-MME の改善も達成した。
- 参考スコア(独自算出の注目度): 61.526407756322264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video multimodal large language models (Video-MLLMs) have achieved remarkable progress in video understanding. However, they remain vulnerable to hallucination-producing content inconsistent with or unrelated to video inputs. Previous video hallucination benchmarks primarily focus on short-videos. They attribute hallucinations to factors such as strong language priors, missing frames, or vision-language biases introduced by the visual encoder. While these causes indeed account for most hallucinations in short videos, they still oversimplify the cause of hallucinations. Sometimes, models generate incorrect outputs but with correct frame-level semantics. We refer to this type of hallucination as Semantic Aggregation Hallucination (SAH), which arises during the process of aggregating frame-level semantics into event-level semantic groups. Given that SAH becomes particularly critical in long videos due to increased semantic complexity across multiple events, it is essential to separate and thoroughly investigate the causes of this type of hallucination. To address the above issues, we introduce ELV-Halluc, the first benchmark dedicated to long-video hallucination, enabling a systematic investigation of SAH. Our experiments confirm the existence of SAH and show that it increases with semantic complexity. Additionally, we find that models are more prone to SAH on rapidly changing semantics. Moreover, we discuss potential approaches to mitigate SAH. We demonstrate that positional encoding strategy contributes to alleviating SAH, and further adopt DPO strategy to enhance the model's ability to distinguish semantics within and across events. To support this, we curate a dataset of 8K adversarial data pairs and achieve improvements on both ELV-Halluc and Video-MME, including a substantial 27.7% reduction in SAH ratio.
- Abstract(参考訳): ビデオマルチモーダル大言語モデル(ビデオMLLM)は,ビデオ理解において顕著な進歩を遂げている。
しかし、ビデオ入力と相容れない、あるいは無関係な幻覚生成コンテンツに対して脆弱なままである。
これまでのビデオ幻覚ベンチマークは主にショートビデオに焦点を当てていた。
彼らは幻覚を、強い言語先行、欠落したフレーム、視覚エンコーダによって導入された視覚言語バイアスなどの要因に起因している。
これらの原因は、短いビデオでほとんどの幻覚の原因となっているが、それでも幻覚の原因を単純化している。
しばしば、モデルは間違った出力を生成するが、正しいフレームレベルのセマンティクスを持つ。
このタイプの幻覚を意味的集合幻覚(Semantic Aggregation Hallucination, SAH)と呼び、フレームレベルの意味論を事象レベルの意味群に集約する過程で生じる。
複数の事象にまたがる意味的複雑さの増加により、SAHは長いビデオにおいて特に重要になるので、この種の幻覚の原因を分離し、徹底的に調査することが不可欠である。
上記の問題に対処するため, ELV-Hallucは, 長期ビデオ幻覚を主軸とした最初のベンチマークであり, SAHの体系的調査を可能にする。
実験により,SAHの存在が確認され,意味複雑性によって増加することが示された。
さらに、モデルが急速に変化するセマンティクスにおいてSAHの傾向が強くなることもわかりました。
さらに、SAHを緩和するための潜在的アプローチについても論じる。
位置符号化戦略がSAHの緩和に寄与することを示し、さらにDPO戦略を採用し、イベント内およびイベント間のセマンティクスを識別する能力を高める。
これをサポートするため、8K対のデータセットをキュレートし、ELV-HallucとVideo-MMEの両方の改善を実現し、SAH比を27.7%削減した。
関連論文リスト
- Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation [49.885797244626694]
大型マルチモーダルモデル(LMM)の幻覚は、正しいように見えるが実際には正しくない応答を提供する。
本稿では,ビデオモダリティにおけるLMMの幻覚問題について検討することを目的としている。
論文 参考訳(メタデータ) (2025-03-25T13:12:17Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding [1.1834200163382398]
ビデオ理解のためにMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。
VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。
DINO-HEALは,DINOv2からの空間塩分を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要な方法である。
論文 参考訳(メタデータ) (2024-12-04T22:03:19Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。