Fugu-MT 論文翻訳(概要): Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization

論文の概要: Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization

arxiv url: http://arxiv.org/abs/2405.15356v2
Date: Tue, 19 Nov 2024 13:18:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.730934
Title: Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization
Title（参考訳）: 幻覚誘導最適化による大型視線モデルにおける幻覚の緩和
Authors: Beitao Chen, Xinyu Lyu, Lianli Gao, Jingkuan Song, Heng Tao Shen,
Abstract要約: 大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
参考スコア（独自算出の注目度）: 123.54980913741828
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although Large Visual Language Models (LVLMs) have demonstrated exceptional abilities in understanding multimodal data, they invariably suffer from hallucinations, leading to a disconnect between the generated text and the corresponding images. Almost all current visual contrastive decoding methods attempt to mitigate these hallucinations by introducing visual uncertainty information that appropriately widens the contrastive logits gap between hallucinatory and targeted ones. However, due to uncontrollable nature of the global visual uncertainty, they struggle to precisely induce the hallucinatory tokens, which severely limits their effectiveness in mitigating hallucinations and may even lead to the generation of undesired hallucinations. To tackle this issue, we conducted the theoretical analysis to promote the effectiveness of contrast decoding. Building on this insight, we introduce a novel optimization strategy named Hallucination-Induced Optimization (HIO). This strategy seeks to amplify the contrast between hallucinatory and targeted tokens relying on a fine-tuned theoretical preference model (i.e., Contrary Bradley-Terry Model), thereby facilitating efficient contrast decoding to alleviate hallucinations in LVLMs. Extensive experimental research demonstrates that our HIO strategy can effectively reduce hallucinations in LVLMs, outperforming state-of-the-art methods across various benchmarks.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は多モーダルデータの理解において例外的な能力を示したが、幻覚に悩まされ、生成されたテキストと対応する画像とが切り離される。現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して、幻覚と対象物の間の対数ギャップを適切に広げることで、これらの幻覚を緩和しようとするものである。しかし、世界的視覚の不確実性の制御不能な性質のため、幻覚トークンを正確に誘導することは困難であり、幻覚を緩和する効果を著しく制限し、望ましくない幻覚を発生させるかもしれない。この問題に対処するため,コントラスト復号法の有効性を高めるために理論的解析を行った。この知見に基づいて,Halucination-induced Optimization (HIO) という新しい最適化戦略を導入する。この戦略は、微調整された理論的選好モデル(Contrary Bradley-Terry Model)に依存する幻覚とターゲットトークンのコントラストを増幅し、LVLMにおける幻覚を緩和するための効率的なコントラスト復号を容易にする。我々のHIO戦略はLVLMの幻覚を効果的に低減し、様々なベンチマークで最先端の手法より優れていることを示す。

関連論文リスト

Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文参考訳（メタデータ） (2025-04-16T14:50:25Z)
HICD: Hallucination-Inducing via Attention Dispersion for Contrastive Decoding to Mitigate Hallucinations in Large Language Models [5.5957864358384795]
大規模言語モデル(LLM)は、しばしば幻覚を生成し、文脈的に不正確または事実的に不正確な出力を生成する。我々は,幻覚を緩和する対照的な復号法として,幻覚を誘導する新しい手法HICDを紹介する。
論文参考訳（メタデータ） (2025-03-17T08:17:28Z)
Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
Poison as Cure: Visual Noise for Mitigating Object Hallucinations in LVMs [7.920981206857122]
大型視覚言語モデル(LVM)は、大型言語モデル(LLM)を視覚的知覚能力で拡張する。信頼性を損なう大きな課題は、LVMが妥当だが事実的に不正確な情報を生成できるというオブジェクト幻覚である。本稿では,この幻覚を緩和するための新しい視覚的対向摂動(VAP)法を提案する。
論文参考訳（メタデータ） (2025-01-31T14:31:00Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。 textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文参考訳（メタデータ） (2024-11-24T13:42:02Z)
Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文参考訳（メタデータ） (2024-10-21T08:42:30Z)
A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。 LVLMの構造と幻覚の発生の主な原因を紹介する。 LVLMの幻覚評価ベンチマークについて述べる。
論文参考訳（メタデータ） (2024-10-20T10:58:58Z)
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-05T17:56:38Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文参考訳（メタデータ） (2024-03-27T16:04:47Z)
IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文参考訳（メタデータ） (2024-02-28T16:57:22Z)
Alleviating Hallucinations of Large Language Models through Induced Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文参考訳（メタデータ） (2023-12-25T12:32:49Z)
HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。 LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文参考訳（メタデータ） (2023-11-22T04:52:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。