論文の概要: VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding
- arxiv url: http://arxiv.org/abs/2412.03735v1
- Date: Wed, 04 Dec 2024 22:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:02.008831
- Title: VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding
- Title(参考訳): VidHalluc:ビデオ理解のための多モーダル大言語モデルにおける時間的幻覚の評価
- Authors: Chaoyu Li, Eun Woo Im, Pooyan Fazli,
- Abstract要約: ビデオ理解タスクのためのMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。
VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。
DINO-HEALは,DINOv2からの空間的塩分度情報を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要の手法である。
- 参考スコア(独自算出の注目度): 1.1834200163382398
- License:
- Abstract: Multimodal large language models (MLLMs) have recently shown significant advancements in video understanding, excelling in content reasoning and instruction-following tasks. However, the problem of hallucination, where models generate inaccurate or misleading content, remains underexplored in the video domain. Building on the observation that the visual encoder of MLLMs often struggles to differentiate between video pairs that are visually distinct but semantically similar, we introduce VidHalluc, the largest benchmark designed to examine hallucinations in MLLMs for video understanding tasks. VidHalluc assesses hallucinations across three critical dimensions: (1) action, (2) temporal sequence, and (3) scene transition. VidHalluc consists of 5,002 videos, paired based on semantic similarity and visual differences, focusing on cases where hallucinations are most likely to occur. Through comprehensive testing, our experiments show that most MLLMs are vulnerable to hallucinations across these dimensions. Furthermore, we propose DINO-HEAL, a training-free method that reduces hallucinations by incorporating spatial saliency information from DINOv2 to reweight visual features during inference. Our results demonstrate that DINO-HEAL consistently improves performance on VidHalluc, achieving an average improvement of 3.02% in mitigating hallucinations among all tasks. Both the VidHalluc benchmark and DINO-HEAL code can be accessed via $\href{https://vid-halluc.github.io/}{\text{this link}}$.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は近年,映像理解の進歩,コンテンツ推論や命令追従タスクに優れる。
しかし、不正確なコンテンツや誤解を招くコンテンツをモデルが生成する幻覚の問題はビデオ領域では未発見のままである。
MLLMの視覚エンコーダは、視覚的に異なるが意味的に類似しているビデオペアの区別に苦慮することが多いという観察に基づいて、ビデオ理解タスクのためのMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。
VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。
VidHallucは5,002本のビデオで構成され、意味的類似性と視覚的差異に基づいてペア化され、幻覚が最も起こりやすいケースに焦点を当てている。
総合的な実験により、ほとんどのMLLMはこれらの次元にわたって幻覚に弱いことが判明した。
さらに、DINO-HEALは、DINOv2からの空間的塩分度情報を推論中の視覚的特徴に組み込むことにより、幻覚を減らす訓練不要な方法である。
以上の結果から,DINO-HEALはVidHallucの性能を継続的に改善し,全てのタスクにおける幻覚の緩和において平均3.02%の改善を実現していることがわかった。
VidHallucベンチマークとDINO-HEALコードは、$\href{https://vid-halluc.github.io/}{\text{this link}}$でアクセスできる。
関連論文リスト
- VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
ビデオベースの幻覚を評価するために特別に設計されたベンチマークであるVidHalを紹介する。
VidHalの明確な特徴は、各ビデオに関連する様々なレベルのキャプションを表すキャプションを慎重に作成することである。
本稿では,VLLMの字幕ランク付けを必要とする新規な字幕順序付けタスクを提案する。
論文 参考訳(メタデータ) (2024-11-25T06:17:23Z) - Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models [33.19894606649144]
視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。
生成した幻覚に遭遇する際のLVLMの挙動を評価するためのMMHalballというフレームワークを提案する。
本稿では,LVLMの出力分布を残差視覚入力から導出した値で修正する,Residual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T03:04:11Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。