Fugu-MT 論文翻訳(概要): VERHallu: Evaluating and Mitigating Event Relation Hallucination in Video Large Language Models

論文の概要: VERHallu: Evaluating and Mitigating Event Relation Hallucination in Video Large Language Models

arxiv url: http://arxiv.org/abs/2601.10010v1
Date: Thu, 15 Jan 2026 02:40:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:18.959926
Title: VERHallu: Evaluating and Mitigating Event Relation Hallucination in Video Large Language Models
Title（参考訳）: VERHallu:ビデオ大言語モデルにおける事象関係の幻覚の評価と緩和
Authors: Zefan Zhang, Kehua Zhu, Shijie Jiang, Hongyuan Lu, Shengkai Sun, Tian Bai,
Abstract要約: 既存の研究は、主にビデオ内のイベント、オブジェクト、シーンの存在に関する幻覚に焦点を当てている。本稿では, VERHallu というビデオイベント関係の幻覚を評価するための新しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 8.155587933125673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Large Language Models (VideoLLMs) exhibit various types of hallucinations. Existing research has primarily focused on hallucinations involving the presence of events, objects, and scenes in videos, while largely neglecting event relation hallucination. In this paper, we introduce a novel benchmark for evaluating the Video Event Relation Hallucination, named VERHallu. This benchmark focuses on causal, temporal, and subevent relations between events, encompassing three types of tasks: relation classification, question answering, and counterfactual question answering, for a comprehensive evaluation of event relation hallucination. Additionally, it features counterintuitive video scenarios that deviate from typical pretraining distributions, with each sample accompanied by human-annotated candidates covering both vision-language and pure language biases. Our analysis reveals that current state-of-the-art VideoLLMs struggle with dense-event relation reasoning, often relying on prior knowledge due to insufficient use of frame-level cues. Although these models demonstrate strong grounding capabilities for key events, they often overlook the surrounding subevents, leading to an incomplete and inaccurate understanding of event relations. To tackle this, we propose a Key-Frame Propagating (KFP) strategy, which reallocates frame-level attention within intermediate layers to enhance multi-event understanding. Experiments show it effectively mitigates the event relation hallucination without affecting inference speed.
Abstract（参考訳）: Video Large Language Models (VideoLLMs) には様々な幻覚がある。既存の研究は、主にビデオ内のイベント、オブジェクト、シーンの存在に関する幻覚に焦点を当てているが、イベント関係の幻覚は無視されている。本稿では,VERHallu というビデオイベント関係の幻覚を評価するための新しいベンチマークを提案する。本ベンチマークでは, 事象間の因果関係, 時間的・不均一な関係に着目し, 関係分類, 質問応答, 対実的質問応答の3つのタスクを包含し, 事象関連幻覚の包括的評価を行う。さらに、典型的な事前学習分布から逸脱する直感的なビデオシナリオを特徴とし、各サンプルには視覚言語と純粋言語の両方のバイアスをカバーする人間の注釈付き候補が伴っている。我々の分析によると、現在のビデオLLMは、フレームレベルの手がかりが不十分なため、しばしば事前知識に頼っているため、密集した関係推論に苦慮している。これらのモデルは重要な事象に対して強い基礎的能力を示すが、しばしば周囲の出来事を見落とし、事象の関係について不完全で不正確な理解をもたらす。そこで本研究では,キーフレームプロパゲーティング(KFP)戦略を提案する。実験では、推論速度に影響を与えることなく、事象関連幻覚を効果的に緩和することを示した。

関連論文リスト

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking [45.90413025033315]
ビデオ推論では、ビデオ内のイベント間の因果関係を理解する必要がある。既存のマルチモーダル大言語モデル(MLLM)は、しばしば高密度キャプションやビデオ要約を通してイベント関係を推測する。構造化イベントレベルシーングラフを構成する強化微調整法であるGraphThinkerを提案する。
論文参考訳（メタデータ） (2026-02-19T17:09:30Z)
SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding [30.820850789099932]
本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。 SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
論文参考訳（メタデータ） (2025-12-04T10:17:20Z)
NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models [8.6767620170781]
ビデオ大言語モデル(ビデオLLM)は、最近、キャプション、要約、質問応答といったタスクにおいて、強力なパフォーマンスを実現している。多くのモデルやトレーニング手法は、物語の一貫性を高めるためにイベント間の連続性を明示的に奨励する。我々は、このバイアスを、物語を先に呼ぶ2つの誤りの鍵となる要因として挙げる:幻覚(幻覚)、非存在事象、または既存の事象が誤って解釈される場合、そして、事実事象が周囲の状況と不一致しているため抑制される場合である。
論文参考訳（メタデータ） (2025-11-09T17:41:11Z)
ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding [61.526407756322264]
ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。また,ELV-Halluc と Video-MME の改善も達成した。
論文参考訳（メタデータ） (2025-08-29T10:25:03Z)
What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文参考訳（メタデータ） (2025-08-03T03:11:48Z)
EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2024-09-25T03:49:46Z)
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。 Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文参考訳（メタデータ） (2024-08-02T16:07:15Z)
Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文参考訳（メタデータ） (2024-07-10T20:37:42Z)
Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models [69.79709804046325]
視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。 R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
論文参考訳（メタデータ） (2024-06-24T08:42:42Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。 MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-09-28T06:15:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。