論文の概要: EventHallusion: Diagnosing Event Hallucinations in Video LLMs
- arxiv url: http://arxiv.org/abs/2409.16597v2
- Date: Fri, 03 Jan 2025 10:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:09:41.933964
- Title: EventHallusion: Diagnosing Event Hallucinations in Video LLMs
- Title(参考訳): EventHallusion:ビデオLLMにおけるイベント幻覚の診断
- Authors: Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Na Zhao, Jingjing Chen,
- Abstract要約: MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 39.65906480963502
- License:
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have made significant progress in the video comprehension field. Despite remarkable content reasoning and instruction following capabilities they demonstrated, the hallucination problem of these VideoLLMs is less explored compared with its counterpart in the image domain. To mitigate this gap, we propose EventHallusion, a novel benchmark that focuses on assessing the VideoLLMs' hallucination toward event, the crux of video analysis. From a hallucination attribution perspective, our EventHallusion benchmark is curated to assess a VideoLLM's susceptibility toward language priors and vision-language biases. On the other hand, we also propose a simple yet effective method, called Temporal Contrastive Decoding (TCD), to tackle the hallucination problems of VideoLLMs. The proposed TCD method rectifies the model's bias toward its priors during the decoding stage by comparing the original video with a modified version, in which temporal cues are disrupted. Through comprehensive evaluation of eight open-source and two closed-source VideoLLMs on the proposed EventHallusion benchmark, we observe that the open-source models suffer significantly from hallucination problems, whereas the closed-source ones perform markedly better. By further equipping open-source VideoLLMs with the proposed TCD approach, evident performance improvements are achieved across most metrics in the EventHallusion benchmark. Our codes and benchmark data are available at https://github.com/Stevetich/EventHallusion.
- Abstract(参考訳): 近年,ビデオ理解分野においてMLLM(Multimodal Large Language Models)が大きな進歩を遂げている。
これらのビデオLLMの幻覚問題は、その画像領域のそれと比較すると、顕著なコンテンツ推論と命令追従能力にもかかわらず、あまり研究されていない。
このギャップを軽減するために,ビデオ解析の要点であるイベントに対するビデオLLMの幻覚を評価することに焦点を当てた,新しいベンチマークであるEventHallusionを提案する。
幻覚の帰属の観点から、私たちのEventHallusionベンチマークは、ビデオLLMが言語に対する感受性と視覚言語バイアスを評価するために評価される。
一方,ビデオLLMの幻覚問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は、復号段階におけるモデルの偏差を、時間的手がかりを乱す修正版と比較することにより補正する。
提案するEventHallusionベンチマークでは,8つのオープンソースと2つのクローズドソースの VideoLLM を総合的に評価することにより,オープンソースモデルが幻覚障害に悩まされているのに対して,クローズドソースモデルは顕著に優れた性能を示した。
提案されたTCDアプローチで、オープンソースVideoLLMをさらに装備することにより、EventHallusionベンチマークのほとんどのメトリクスで明らかにパフォーマンス改善が達成される。
私たちのコードとベンチマークデータはhttps://github.com/Stevetich/EventHallusion.comで公開されています。
関連論文リスト
- Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding [1.1834200163382398]
ビデオ理解タスクのためのMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。
VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。
DINO-HEALは,DINOv2からの空間的塩分度情報を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要の手法である。
論文 参考訳(メタデータ) (2024-12-04T22:03:19Z) - VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
ビデオベースの幻覚を評価するために特別に設計されたベンチマークであるVidHalを紹介する。
VidHalの明確な特徴は、各ビデオに関連する様々なレベルのキャプションを表すキャプションを慎重に作成することである。
本稿では,VLLMの字幕ランク付けを必要とする新規な字幕順序付けタスクを提案する。
論文 参考訳(メタデータ) (2024-11-25T06:17:23Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Lower Layer Matters: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused [44.37155553647802]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示している。
時に、期待された出力と事実的に不正確な、あるいは不一致なコンテンツを生成する。
近年の研究では,幻覚誘発モデルとアマチュアモデルとの対比的復号化について検討している。
LOL(Lower Layer Matters)と呼ばれる新しいコントラストデコーディングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-08-16T14:23:59Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。