論文の概要: EventHallusion: Diagnosing Event Hallucinations in Video LLMs
- arxiv url: http://arxiv.org/abs/2409.16597v3
- Date: Tue, 14 Jan 2025 11:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:13.806652
- Title: EventHallusion: Diagnosing Event Hallucinations in Video LLMs
- Title(参考訳): EventHallusion:ビデオLLMにおけるイベント幻覚の診断
- Authors: Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Na Zhao, Jingjing Chen,
- Abstract要約: MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 39.65906480963502
- License:
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have made significant progress in the video comprehension field. Despite remarkable content reasoning and instruction following capabilities they demonstrated, the hallucination problem of these VideoLLMs is less explored compared with its counterpart in the image domain. To mitigate this gap, we propose EventHallusion, a novel benchmark that focuses on assessing the VideoLLMs' hallucination toward event, the crux of video analysis. From a hallucination attribution perspective, our EventHallusion benchmark is curated to assess a VideoLLM's susceptibility toward language priors and vision-language biases. On the other hand, we also propose a simple yet effective method, called Temporal Contrastive Decoding (TCD), to tackle the hallucination problems of VideoLLMs. The proposed TCD method rectifies the model's bias toward its priors during the decoding stage by comparing the original video with a modified version, in which temporal cues are disrupted. Through comprehensive evaluation of eight open-source and two closed-source VideoLLMs on the proposed EventHallusion benchmark, we observe that the open-source models suffer significantly from hallucination problems, whereas the closed-source ones perform markedly better. By further equipping open-source VideoLLMs with the proposed TCD approach, evident performance improvements are achieved across most metrics in the EventHallusion benchmark. Our codes and benchmark data are available at https://github.com/Stevetich/EventHallusion.
- Abstract(参考訳): 近年,ビデオ理解分野においてMLLM(Multimodal Large Language Models)が大きな進歩を遂げている。
これらのビデオLLMの幻覚問題は、その画像領域のそれと比較すると、顕著なコンテンツ推論と命令追従能力にもかかわらず、あまり研究されていない。
このギャップを軽減するために,ビデオ解析の要点であるイベントに対するビデオLLMの幻覚を評価することに焦点を当てた,新しいベンチマークであるEventHallusionを提案する。
幻覚の帰属の観点から、私たちのEventHallusionベンチマークは、ビデオLLMが言語に対する感受性と視覚言語バイアスを評価するために評価される。
一方,ビデオLLMの幻覚問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は、復号段階におけるモデルの偏差を、時間的手がかりを乱す修正版と比較することにより補正する。
提案するEventHallusionベンチマークでは,8つのオープンソースと2つのクローズドソースの VideoLLM を総合的に評価することにより,オープンソースモデルが幻覚障害に悩まされているのに対して,クローズドソースモデルは顕著に優れた性能を示した。
提案されたTCDアプローチで、オープンソースVideoLLMをさらに装備することにより、EventHallusionベンチマークのほとんどのメトリクスで明らかにパフォーマンス改善が達成される。
私たちのコードとベンチマークデータはhttps://github.com/Stevetich/EventHallusion.comで公開されています。
関連論文リスト
- VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
ビデオベースの幻覚を評価するために特別に設計されたベンチマークであるVidHalを紹介する。
VidHalの明確な特徴は、各ビデオに関連する様々なレベルのキャプションを表すキャプションを慎重に作成することである。
本稿では,VLLMの字幕ランク付けを必要とする新規な字幕順序付けタスクを提案する。
論文 参考訳(メタデータ) (2024-11-25T06:17:23Z) - MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning [23.928977574352796]
新しいタスクとデータセットであるMulti-Event Causal Discovery (MECD)を導入する。
時系列的に長いビデオに分散したイベント間の因果関係を明らかにすることを目的としている。
我々は,効率的なマスクベースの事象予測モデルを用いて,Granger Causality法にインスパイアされた新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2024-09-26T08:51:29Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文 参考訳(メタデータ) (2024-03-20T11:05:07Z) - Temporal Insight Enhancement: Mitigating Temporal Hallucination in
Multimodal Large Language Models [20.33971942003996]
本研究では,MLLMにおける事象レベルの幻覚に対処する革新的な手法を提案する。
オンデマンドイベントクエリをアイコンアクションに分解するユニークなメカニズムを提案する。
イベント発生の特定のタイムスタンプを予測するために、CLIPやBLIP2といったモデルを採用しています。
論文 参考訳(メタデータ) (2024-01-18T10:18:48Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。