論文の概要: Evaluating Hallucination in Large Vision-Language Models based on Context-Aware Object Similarities
- arxiv url: http://arxiv.org/abs/2501.15046v1
- Date: Sat, 25 Jan 2025 03:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:07.026275
- Title: Evaluating Hallucination in Large Vision-Language Models based on Context-Aware Object Similarities
- Title(参考訳): コンテキスト認識オブジェクトの類似性に基づく大規模視覚言語モデルにおける幻覚の評価
- Authors: Shounak Datta, Dhanasekar Sundararaman,
- Abstract要約: 大規模視覚言語モデル(LVLM)における物体幻覚評価のための新しいアプローチである文脈認識オブジェクト類似性(CAOS)を提案する。
CAOSは、オブジェクト統計とキャプション内のオブジェクト間の意味的関係を統合する。
これを解決するために、言語モデルに基づくオブジェクト認識を用いて、潜在的にドメイン外幻覚オブジェクトを検出する。
- 参考スコア(独自算出の注目度): 5.602853217226167
- License:
- Abstract: Despite their impressive performance on multi-modal tasks, large vision-language models (LVLMs) tend to suffer from hallucinations. An important type is object hallucination, where LVLMs generate objects that are inconsistent with the images shown to the model. Existing works typically attempt to quantify object hallucinations by detecting and measuring the fraction of hallucinated objects in generated captions. Additionally, more recent work also measures object hallucinations by directly querying the LVLM with binary questions about the presence of likely hallucinated objects based on object statistics like top-k frequent objects and top-k co-occurring objects. In this paper, we present Context-Aware Object Similarities (CAOS), a novel approach for evaluating object hallucination in LVLMs using object statistics as well as the generated captions. CAOS uniquely integrates object statistics with semantic relationships between objects in captions and ground-truth data. Moreover, existing approaches usually only detect and measure hallucinations belonging to a predetermined set of in-domain objects (typically the set of all ground-truth objects for the training dataset) and ignore generated objects that are not part of this set, leading to under-evaluation. To address this, we further employ language model--based object recognition to detect potentially out-of-domain hallucinated objects and use an ensemble of LVLMs for verifying the presence of such objects in the query image. CAOS also examines the sequential dynamics of object generation, shedding light on how the order of object appearance influences hallucinations, and employs word embedding models to analyze the semantic reasons behind hallucinations. CAOS aims to offer a nuanced understanding of the hallucination tendencies of LVLMs by providing a systematic framework to identify and interpret object hallucinations.
- Abstract(参考訳): マルチモーダルタスクにおける印象的なパフォーマンスにもかかわらず、大きな視覚言語モデル(LVLM)は幻覚に悩まされる傾向がある。
重要な型はオブジェクト幻覚であり、LVLMはモデルに示される画像と矛盾するオブジェクトを生成する。
既存の研究は通常、生成されたキャプション内の幻覚化された物体の分画を検出し測定することで、物体の幻覚を定量化しようとする。
さらに、近年の研究では、トップkの頻繁なオブジェクトやトップkの共起オブジェクトのようなオブジェクト統計に基づいて、潜在的幻覚オブジェクトの存在について、LVLMを直接クエリすることで、オブジェクト幻覚を測定する。
本稿では、オブジェクト統計と生成されたキャプションを用いて、LVLMにおけるオブジェクト幻覚を評価する新しいアプローチである、コンテキスト認識オブジェクト類似(CAOS)を提案する。
CAOSは、オブジェクト統計をキャプション内のオブジェクトと接地真実データの間の意味関係と一意に統合する。
さらに、既存のアプローチは、通常、所定のドメイン内のオブジェクトのセット(通常、トレーニングデータセットのすべての基幹オブジェクトのセット)に属する幻覚を検知し、測定するだけで、このセットの一部ではない生成されたオブジェクトを無視し、過小評価に繋がる。
これを解決するために、言語モデルに基づくオブジェクト認識を用いて、潜在的にドメイン外の幻覚オブジェクトを検出し、LVLMのアンサンブルを用いてクエリ画像中のそのようなオブジェクトの存在を検証する。
CAOSはまた、オブジェクト生成のシーケンシャルなダイナミクスを調べ、オブジェクトの出現順序が幻覚にどのように影響するかを隠蔽し、単語埋め込みモデルを用いて幻覚の背後にある意味的な理由を分析する。
CAOSは、オブジェクトの幻覚を識別し解釈するための体系的な枠組みを提供することにより、LVLMの幻覚傾向の微妙な理解を提供することを目的としている。
関連論文リスト
- HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクの実行において顕著な性能を示す。
本稿では,新しい視覚的質問応答(VQA)オブジェクト幻覚攻撃ベンチマークであるHALLUCINOGENを提案する。
バイオメディカルドメインに適合した幻覚攻撃であるMED-HALLUCINOGENを導入した。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models [22.42712853647949]
本稿では,CLIPモデル内での物体幻覚問題について詳細に検討する。
孤立しても、CLIPモデルは対象の幻覚に傾向があり、幻覚問題は単に視覚と言語モダリティの相互作用によるものではないことを示唆する。
拡張モデルは視覚エンコーダとして利用でき、LVLMにおける物体幻覚の問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2024-10-04T06:24:49Z) - Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations [15.035663040732798]
幻覚に対処するために視覚言語モデル(VLM)の内部表現について検討する。
我々は,VLMの内部画像表現を言語語彙に投影し,実物体の出力確率を幻覚的物体よりも高い信頼度で観測する。
モデルが潜在する表現を対象とする編集は、COCO2014データセットで最大25.7%の幻覚を減少させることができることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:59:57Z) - Multi-Object Hallucination in Vision-Language Models [28.135215173793785]
大型視覚言語モデル(LVLM)は、しばしば物体幻覚に悩まされる。
幻覚行動は、データ固有の要因、サリエンスと周波数、本質的なモデル行動に影響される。
論文 参考訳(メタデータ) (2024-07-08T17:59:57Z) - ALOHa: A New Measure for Hallucination in Captioning Models [61.007542765171586]
既存の物体幻覚の計量であるCHAIRは、MS COCOオブジェクトとシノニムの固定セットに限られる。
そこで我々は,大規模言語モデル(LLM)を利用して物体の幻覚を測定する,最新のオープン語彙メトリックALOHaを提案する。
ALOHaはHAT上のCHAIRよりも13.6%多くの幻覚物質を正しく同定することを示す。
論文 参考訳(メタデータ) (2024-04-03T17:59:36Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。