論文の概要: EGOILLUSION: Benchmarking Hallucinations in Egocentric Video Understanding
- arxiv url: http://arxiv.org/abs/2508.12687v1
- Date: Mon, 18 Aug 2025 07:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.064968
- Title: EGOILLUSION: Benchmarking Hallucinations in Egocentric Video Understanding
- Title(参考訳): EGOILLUSION:エゴセントリックビデオ理解における幻覚のベンチマーク
- Authors: Ashish Seth, Utkarsh Tyagi, Ramaneswaran Selvakumar, Nishit Anand, Sonal Kumar, Sreyan Ghosh, Ramani Duraiswami, Chirag Agarwal, Dinesh Manocha,
- Abstract要約: EgoIllusionは、エゴセントリックビデオにおけるMLLMの幻覚を評価する最初のベンチマークである。
EgoIllusionは1,400本のビデオと8000人の人間による注釈付きオープンおよびクローズドエンドの質問のペアで構成されている。
10個のMLLMを評価すると、GPT-4oやGeminiのような強力なモデルを含む大きな課題が示され、59%の精度しか達成できなかった。
- 参考スコア(独自算出の注目度): 46.46790332072822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable performance in complex multimodal tasks. While MLLMs excel at visual perception and reasoning in third-person and egocentric videos, they are prone to hallucinations, generating coherent yet inaccurate responses. We present EgoIllusion, a first benchmark to evaluate MLLM hallucinations in egocentric videos. EgoIllusion comprises 1,400 videos paired with 8,000 human-annotated open and closed-ended questions designed to trigger hallucinations in both visual and auditory cues in egocentric videos. Evaluations across ten MLLMs reveal significant challenges, including powerful models like GPT-4o and Gemini, achieving only 59% accuracy. EgoIllusion lays the foundation in developing robust benchmarks to evaluate the effectiveness of MLLMs and spurs the development of better egocentric MLLMs with reduced hallucination rates. Our benchmark will be open-sourced for reproducibility.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
MLLMは、第三者や自我中心のビデオの視覚知覚や推論に優れていますが、幻覚を起こしやすいため、コヒーレントで不正確な反応を引き起こします。
エゴセントリックビデオにおけるMLLM幻覚を評価するための最初のベンチマークであるEgoIllusionを提案する。
EgoIllusionは、1,400本のビデオと8000人の人間に注釈を付けたオープンな質問とクローズドな質問をペアリングして、エゴセントリックなビデオの視覚的および聴覚的手がかりの両方に幻覚を起こさせる。
10個のMLLMを評価すると、GPT-4oやGeminiのような強力なモデルを含む大きな課題が示され、59%の精度しか達成できなかった。
EgoIllusionは、MLLMの有効性を評価するための堅牢なベンチマークの開発の基礎を築き、幻覚率を下げたよりエゴセントリックなMLLMの開発を促進する。
私たちのベンチマークは再現性のためにオープンソース化されます。
関連論文リスト
- Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation [49.885797244626694]
大型マルチモーダルモデル(LMM)の幻覚は、正しいように見えるが実際には正しくない応答を提供する。
本稿では,ビデオモダリティにおけるLMMの幻覚問題について検討することを目的としている。
論文 参考訳(メタデータ) (2025-03-25T13:12:17Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - EgoBlind: Towards Egocentric Visual Assistance for the Blind [69.6161191190939]
EgoBlindは、視覚障害者から収集された最初のエゴセントリックなビデオQAデータセットである。
視覚障害者の日常生活を1対1の視点で記録するビデオは1,392本ある。
また、視覚補助のために、視覚障害者が直接提示または生成した5,311の質問も入っている。
論文 参考訳(メタデータ) (2025-03-11T09:40:31Z) - VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding [1.1834200163382398]
ビデオ理解のためにMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。
VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。
DINO-HEALは,DINOv2からの空間塩分を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要な方法である。
論文 参考訳(メタデータ) (2024-12-04T22:03:19Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Look Within, Why LLMs Hallucinate: A Causal Perspective [16.874588396996764]
大規模言語モデル(LLM)は、生成人工知能のマイルストーンであり、テキスト理解と生成タスクにおいて大きな成功を収めている。
LLMは深刻な幻覚障害に悩まされ、LLMの実用化に重大な課題が生じた。
LLMの自己注意層に介入し,その構造とサイズをそのまま維持する手法を提案する。
論文 参考訳(メタデータ) (2024-07-14T10:47:44Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。