論文の概要: VERHallu: Evaluating and Mitigating Event Relation Hallucination in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2601.10010v1
- Date: Thu, 15 Jan 2026 02:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.959926
- Title: VERHallu: Evaluating and Mitigating Event Relation Hallucination in Video Large Language Models
- Title(参考訳): VERHallu:ビデオ大言語モデルにおける事象関係の幻覚の評価と緩和
- Authors: Zefan Zhang, Kehua Zhu, Shijie Jiang, Hongyuan Lu, Shengkai Sun, Tian Bai,
- Abstract要約: 既存の研究は、主にビデオ内のイベント、オブジェクト、シーンの存在に関する幻覚に焦点を当てている。
本稿では, VERHallu というビデオイベント関係の幻覚を評価するための新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 8.155587933125673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (VideoLLMs) exhibit various types of hallucinations. Existing research has primarily focused on hallucinations involving the presence of events, objects, and scenes in videos, while largely neglecting event relation hallucination. In this paper, we introduce a novel benchmark for evaluating the Video Event Relation Hallucination, named VERHallu. This benchmark focuses on causal, temporal, and subevent relations between events, encompassing three types of tasks: relation classification, question answering, and counterfactual question answering, for a comprehensive evaluation of event relation hallucination. Additionally, it features counterintuitive video scenarios that deviate from typical pretraining distributions, with each sample accompanied by human-annotated candidates covering both vision-language and pure language biases. Our analysis reveals that current state-of-the-art VideoLLMs struggle with dense-event relation reasoning, often relying on prior knowledge due to insufficient use of frame-level cues. Although these models demonstrate strong grounding capabilities for key events, they often overlook the surrounding subevents, leading to an incomplete and inaccurate understanding of event relations. To tackle this, we propose a Key-Frame Propagating (KFP) strategy, which reallocates frame-level attention within intermediate layers to enhance multi-event understanding. Experiments show it effectively mitigates the event relation hallucination without affecting inference speed.
- Abstract(参考訳): Video Large Language Models (VideoLLMs) には様々な幻覚がある。
既存の研究は、主にビデオ内のイベント、オブジェクト、シーンの存在に関する幻覚に焦点を当てているが、イベント関係の幻覚は無視されている。
本稿では,VERHallu というビデオイベント関係の幻覚を評価するための新しいベンチマークを提案する。
本ベンチマークでは, 事象間の因果関係, 時間的・不均一な関係に着目し, 関係分類, 質問応答, 対実的質問応答の3つのタスクを包含し, 事象関連幻覚の包括的評価を行う。
さらに、典型的な事前学習分布から逸脱する直感的なビデオシナリオを特徴とし、各サンプルには視覚言語と純粋言語の両方のバイアスをカバーする人間の注釈付き候補が伴っている。
我々の分析によると、現在のビデオLLMは、フレームレベルの手がかりが不十分なため、しばしば事前知識に頼っているため、密集した関係推論に苦慮している。
これらのモデルは重要な事象に対して強い基礎的能力を示すが、しばしば周囲の出来事を見落とし、事象の関係について不完全で不正確な理解をもたらす。
そこで本研究では,キーフレームプロパゲーティング(KFP)戦略を提案する。
実験では、推論速度に影響を与えることなく、事象関連幻覚を効果的に緩和することを示した。
関連論文リスト
- SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding [30.820850789099932]
本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。
SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
論文 参考訳(メタデータ) (2025-12-04T10:17:20Z) - NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models [8.6767620170781]
ビデオ大言語モデル(ビデオLLM)は、最近、キャプション、要約、質問応答といったタスクにおいて、強力なパフォーマンスを実現している。
多くのモデルやトレーニング手法は、物語の一貫性を高めるためにイベント間の連続性を明示的に奨励する。
我々は、このバイアスを、物語を先に呼ぶ2つの誤りの鍵となる要因として挙げる:幻覚(幻覚)、非存在事象、または既存の事象が誤って解釈される場合、そして、事実事象が周囲の状況と不一致しているため抑制される場合である。
論文 参考訳(メタデータ) (2025-11-09T17:41:11Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models [69.79709804046325]
視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。
R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。
我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
論文 参考訳(メタデータ) (2024-06-24T08:42:42Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。