論文の概要: Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations
- arxiv url: http://arxiv.org/abs/2410.02762v1
- Date: Thu, 03 Oct 2024 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:54:39.094919
- Title: Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations
- Title(参考訳): 幻覚の緩和のための視覚言語表現の解釈と編集
- Authors: Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman,
- Abstract要約: 幻覚に対処するために視覚言語モデル(VLM)の内部表現について検討する。
我々は,VLMの内部画像表現を言語語彙に投影し,実物体の出力確率を幻覚的物体よりも高い信頼度で観測する。
モデルが潜在する表現を対象とする編集は、COCO2014データセットで最大25.7%の幻覚を減少させることができることを示す。
- 参考スコア(独自算出の注目度): 15.035663040732798
- License:
- Abstract: We investigate the internal representations of vision-language models (VLMs) to address hallucinations, a persistent challenge despite advances in model size and training. We project VLMs' internal image representations to their language vocabulary and observe more confident output probabilities on real objects than hallucinated objects. We additionally use these output probabilities to spatially localize real objects. Building on this approach, we introduce a knowledge erasure algorithm that removes hallucinations by linearly orthogonalizing image features with respect to hallucinated object features. We show that targeted edits to a model's latent representations can reduce hallucinations by up to 25.7% on the COCO2014 dataset while preserving performance. Our findings demonstrate how a deeper understanding of VLMs' latent representations can enhance reliability and enable novel capabilities, such as zero-shot segmentation.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)の内部表現を,モデルのサイズや訓練の進歩にもかかわらず,持続的な課題である幻覚に対処するために検討する。
我々は,VLMの内部画像表現を言語語彙に投影し,実物体の出力確率を幻覚的物体よりも高い信頼度で観測する。
さらに,これらの出力確率を実物体の空間的局所化に利用した。
本稿では, 画像特徴を直交的に表現することで, 幻覚を除去する知識消去アルゴリズムを提案する。
モデルが潜在する表現を対象とする編集は、性能を維持しながらCOCO2014データセット上で最大25.7%の幻覚を減少させることができることを示す。
本研究は,VLMの潜在表現をより深く理解することで,信頼性を高め,ゼロショットセグメンテーションなどの新たな機能を実現することができることを示す。
関連論文リスト
- Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。