Fugu-MT 論文翻訳(概要): Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

論文の概要: Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

arxiv url: http://arxiv.org/abs/2410.02762v1
Date: Thu, 3 Oct 2024 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 06:04:22.256692
Title: Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations
Title（参考訳）: 幻覚の緩和のための視覚言語表現の解釈と編集
Authors: Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman,
Abstract要約: 幻覚に対処するために視覚言語モデル(VLM)の内部表現について検討する。我々は,VLMの内部画像表現を言語語彙に投影し,実物体の出力確率を幻覚的物体よりも高い信頼度で観測する。モデルが潜在する表現を対象とする編集は、COCO2014データセットで最大25.7%の幻覚を減少させることができることを示す。
参考スコア（独自算出の注目度）: 15.035663040732798
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the internal representations of vision-language models (VLMs) to address hallucinations, a persistent challenge despite advances in model size and training. We project VLMs' internal image representations to their language vocabulary and observe more confident output probabilities on real objects than hallucinated objects. We additionally use these output probabilities to spatially localize real objects. Building on this approach, we introduce a knowledge erasure algorithm that removes hallucinations by linearly orthogonalizing image features with respect to hallucinated object features. We show that targeted edits to a model's latent representations can reduce hallucinations by up to 25.7% on the COCO2014 dataset while preserving performance. Our findings demonstrate how a deeper understanding of VLMs' latent representations can enhance reliability and enable novel capabilities, such as zero-shot segmentation.
Abstract（参考訳）: 本稿では,視覚言語モデル(VLM)の内部表現を,モデルのサイズや訓練の進歩にもかかわらず,持続的な課題である幻覚に対処するために検討する。我々は,VLMの内部画像表現を言語語彙に投影し,実物体の出力確率を幻覚的物体よりも高い信頼度で観測する。さらに,これらの出力確率を実物体の空間的局所化に利用した。本稿では, 画像特徴を直交的に表現することで, 幻覚を除去する知識消去アルゴリズムを提案する。モデルが潜在する表現を対象とする編集は、性能を維持しながらCOCO2014データセット上で最大25.7%の幻覚を減少させることができることを示す。本研究は,VLMの潜在表現をより深く理解することで,信頼性を高め,ゼロショットセグメンテーションなどの新たな機能を実現することができることを示す。

関連論文リスト

What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文参考訳（メタデータ） (2025-08-03T03:11:48Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文参考訳（メタデータ） (2025-02-28T05:56:23Z)
The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting [7.813585591163111]
本研究は,物体幻覚における注意駆動視覚刺激の成功事例と失敗事例を分析した。背景コンテキストの保存は,物体幻覚の緩和に不可欠であることを示す。
論文参考訳（メタデータ） (2025-02-21T11:26:21Z)
Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
Evaluating Hallucination in Large Vision-Language Models based on Context-Aware Object Similarities [5.602853217226167]
大規模視覚言語モデル(LVLM)における物体幻覚評価のための新しいアプローチである文脈認識オブジェクト類似性(CAOS)を提案する。 CAOSは、オブジェクト統計とキャプション内のオブジェクト間の意味的関係を統合する。これを解決するために、言語モデルに基づくオブジェクト認識を用いて、潜在的にドメイン外幻覚オブジェクトを検出する。
論文参考訳（メタデータ） (2025-01-25T03:03:18Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文参考訳（メタデータ） (2024-12-18T15:29:30Z)
Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文参考訳（メタデータ） (2024-10-21T08:42:30Z)
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文参考訳（メタデータ） (2024-10-09T11:46:32Z)
Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models [22.42712853647949]
本稿では,CLIPモデル内での物体幻覚問題について詳細に検討する。孤立しても、CLIPモデルは対象の幻覚に傾向があり、幻覚問題は単に視覚と言語モダリティの相互作用によるものではないことを示唆する。拡張モデルは視覚エンコーダとして利用でき、LVLMにおける物体幻覚の問題を効果的に緩和できることを示す。
論文参考訳（メタデータ） (2024-10-04T06:24:49Z)
HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文参考訳（メタデータ） (2024-09-30T15:52:05Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文参考訳（メタデータ） (2024-03-03T02:31:11Z)
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文参考訳（メタデータ） (2023-11-28T16:26:35Z)
Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。 LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文参考訳（メタデータ） (2023-10-01T18:10:53Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文参考訳（メタデータ） (2022-10-14T10:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。