論文の概要: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.16167v1
- Date: Sun, 24 Mar 2024 14:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-26 17:15:57.963309
- Title: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける幻覚緩和のための意味的再構築
- Authors: Minchan Kim, Minyeong Kim, Junik Bae, Suhwan Choi, Sungkyung Kim, Buru Chang,
- Abstract要約: 視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
- 参考スコア(独自算出の注目度): 6.014286500397164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in vision-language models pose a significant challenge to their reliability, particularly in the generation of long captions. Current methods fall short of accurately identifying and mitigating these hallucinations. To address this issue, we introduce ESREAL, a novel unsupervised learning framework designed to suppress the generation of hallucinations through accurate localization and penalization of hallucinated tokens. Initially, ESREAL creates a reconstructed image based on the generated caption and aligns its corresponding regions with those of the original image. This semantic reconstruction aids in identifying both the presence and type of token-level hallucinations within the generated caption. Subsequently, ESREAL computes token-level hallucination scores by assessing the semantic similarity of aligned regions based on the type of hallucination. Finally, ESREAL employs a proximal policy optimization algorithm, where it selectively penalizes hallucinated tokens according to their token-level hallucination scores. Our framework notably reduces hallucinations in LLaVA, InstructBLIP, and mPLUG-Owl2 by 32.81%, 27.08%, and 7.46% on the CHAIR metric. This improvement is achieved solely through signals derived from the image itself, without the need for any image-text pairs.
- Abstract(参考訳): 視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
現在の方法では、これらの幻覚を正確に識別し緩和することができない。
この問題に対処するためESREALは,幻覚の発生を抑制するために,幻覚トークンの正確な位置化と罰則化によって設計された,新しい教師なし学習フレームワークである。
当初、ESREALは生成されたキャプションに基づいて再構成画像を作成し、対応する領域を元の画像と整列させる。
この意味再構成は、生成されたキャプション内のトークンレベルの幻覚の存在とタイプの両方を識別するのに役立つ。
その後、ESREALは、幻覚の種類に基づいて整列領域の意味的類似性を評価することにより、トークンレベルの幻覚スコアを算出する。
最後に、ESREALは近似ポリシー最適化アルゴリズムを採用し、トークンレベルの幻覚スコアに応じて幻覚トークンを選択的にペナルティ化する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
この改善は画像自体から派生した信号によってのみ達成され、画像とテキストのペアは不要である。
関連論文リスト
- HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - TARAC: Mitigating Hallucination in LVLMs via Temporal Attention Real-time Accumulative Connection [6.006482486396196]
本稿では,画像トークンに対する注意の低下による幻覚を軽減するために,時間的注意リアルタイム累積接続(TARAC)を提案する。
我々は、複数のモデルとデータセットにまたがってTARACを評価し、我々のアプローチが幻覚を著しく軽減することを示した。
論文 参考訳(メタデータ) (2025-04-05T07:57:11Z) - EAZY: Eliminating Hallucinations in LVLMs by Zeroing out Hallucinatory Image Tokens [15.479587108655393]
LVLM(Large Vision-Language Models)は、まだオブジェクト幻覚の課題に直面している。
我々の研究は、画像入力源に焦点を移し、特定の画像トークンが幻覚にどのように貢献するかを調べる。
本稿では,幻覚器画像トークンをゼロにすることで,hAllucinationsを自動的に識別し,除去する新しい学習自由化手法EAZYを紹介する。
論文 参考訳(メタデータ) (2025-03-10T18:53:39Z) - Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。
それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。
本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文 参考訳(メタデータ) (2025-02-28T05:56:23Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models [35.45859414670449]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Open-Vocabulary Caption Hallucinations [33.960405731583656]
オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
我々のフレームワークには、生成基盤モデルを利用してオープン語彙オブジェクト幻覚を評価する新しいベンチマークであるOpenCHAIRが含まれている。
閉じたオブジェクトリストを使わずにオープン語彙の幻覚を緩和するために,MOCHaを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。