Fugu-MT 論文翻訳(概要): HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding

論文の概要: HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding

arxiv url: http://arxiv.org/abs/2403.00425v2
Date: Mon, 10 Jun 2024 15:21:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 01:03:43.101536
Title: HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding
Title（参考訳）: HALC:Adaptive Focal-Contrast Decodingによる物体幻覚の低減
Authors: Zhaorun Chen, Zhuokai Zhao, Hongyin Luo, Huaxiu Yao, Bo Li, Jiawei Zhou,
Abstract要約: HALCは、大規模視覚言語モデル(LVLM)における物体幻覚(OH)を軽減するために設計された新しい復号アルゴリズムである。 HALCは、ハエの幻覚トークンを補正するために(局所的に)堅牢なオートフォーカスグラウンド機構と、OHを著しく低減するために(球面的に)特殊なビームサーチアルゴリズムを統合している。
参考スコア（独自算出の注目度）: 30.30494071474536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large vision-language models (LVLMs) have demonstrated impressive capabilities in interpreting multi-modal contexts, they invariably suffer from object hallucinations (OH). We introduce HALC, a novel decoding algorithm designed to mitigate OH in LVLMs. HALC leverages distinct fine-grained optimal visual information in vision-language tasks and operates on both local and global contexts simultaneously. Specifically, HALC integrates a robust auto-focal grounding mechanism (locally) to correct hallucinated tokens on the fly, and a specialized beam search algorithm (globally) to significantly reduce OH while preserving text generation quality. Additionally, HALC can be integrated into any LVLMs as a plug-and-play module without extra training. Extensive experimental studies demonstrate the effectiveness of HALC in reducing OH, outperforming state-of-the-arts across four benchmarks.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は、多モードの文脈を解釈する際、印象的な能力を示してきたが、それらは必然的に対象幻覚(OH)に悩まされている。本稿では,LVLMにおけるOH低減のための新しい復号アルゴリズムHALCを紹介する。 HALCは視覚言語タスクにおいて、視覚情報を微粒化し、ローカルとグローバルの両方のコンテキストで同時に動作する。具体的には、ハエの幻覚トークンを補正するために(局所的に)頑健なオートフォーカスグラウンド機構と、テキスト生成品質を維持しながらOHを大幅に削減する特殊なビーム探索アルゴリズム(グロブリー)を統合する。加えて、HALCは任意のLVLMにプラグイン・アンド・プレイモジュールとして追加のトレーニングなしで統合できる。大規模な実験により、HALCのOH低減効果が示され、4つのベンチマークにおいて最先端の最先端が達成された。

関連論文リスト

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文参考訳（メタデータ） (2026-02-27T14:18:51Z)
ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文参考訳（メタデータ） (2025-05-26T08:36:10Z)
Seeing It or Not? Interpretable Vision-aware Latent Steering to Mitigate Object Hallucinations [11.474045796965056]
LVLM(Large Vision-Language Models)は目覚ましい成功を収めているが、物体幻覚(OH)との闘いは続いている。本稿では,LVLMにおけるOHに対処する解釈的緩和戦略を採用した視覚対応遅延ステアリングフレームワークであるVaseを提案する。
論文参考訳（メタデータ） (2025-05-23T12:29:00Z)
Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文参考訳（メタデータ） (2025-04-16T14:50:25Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
How to Steer LLM Latents for Hallucination Detection? [29.967245405976072]
本稿では、推論中に表現空間を再評価し、真理と幻覚の出力を分離するステアリングベクトルを提案する。我々の2段階のフレームワークは、まず、ラベル付き例題の小さなセットでSVを訓練し、コンパクトで分離されたクラスタを形成します。その後、ラベルなしのLLM世代で模範集合を拡張し、疑似ラベル付けに最適なトランスポートベースのアルゴリズムと信頼に基づくフィルタリングプロセスを組み合わせた。
論文参考訳（メタデータ） (2025-03-01T19:19:34Z)
CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base [29.477973983931083]
LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste&Findを提案する。私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
論文参考訳（メタデータ） (2025-02-18T07:06:36Z)
Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
Mitigating Hallucinations in Large Vision-Language Models with Internal Fact-based Contrastive Decoding [5.424048651554831]
内部Fact-based Contrastive Decoding (IFCD)は、大規模視覚言語モデル(LVLM)の推論過程における幻覚の緩和と抑制を目的としている。 IFCDはLVLMの出力を校正し、最終予測から幻覚ロジットを効果的に除去する。実験の結果, IFCD はPOPE では平均9% の精度向上, MME では8% の精度向上を実現し, オブジェクトレベルの幻覚と属性レベルの幻覚の両方を著しく軽減することがわかった。
論文参考訳（メタデータ） (2025-02-03T05:08:35Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文参考訳（メタデータ） (2024-11-19T18:27:31Z)
Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models [0.0]
LLM(Large Language Models)は、人間の可読テキストの広範なコーパスに基づいて訓練された強力な計算モデルであり、汎用的な言語理解と生成を可能にする。これらの成功にもかかわらず、LLMは幻覚と呼ばれる不正確さをしばしば生み出す。本稿では,LLMにおける幻覚の低減を目的とした,異なるプロンプト戦略とフレームワークの実証評価を行う。
論文参考訳（メタデータ） (2024-10-25T08:34:53Z)
Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文参考訳（メタデータ） (2024-10-21T08:42:30Z)
Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文参考訳（メタデータ） (2024-08-06T08:10:34Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文参考訳（メタデータ） (2024-05-24T08:46:31Z)
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文参考訳（メタデータ） (2024-03-27T16:04:47Z)
Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。 MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文参考訳（メタデータ） (2024-02-13T18:59:05Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。