Fugu-MT 論文翻訳(概要): Gradient-guided Attention Map Editing: Towards Efficient Contextual Hallucination Mitigation

論文の概要: Gradient-guided Attention Map Editing: Towards Efficient Contextual Hallucination Mitigation

arxiv url: http://arxiv.org/abs/2503.08963v1
Date: Tue, 11 Mar 2025 23:55:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.565705
Title: Gradient-guided Attention Map Editing: Towards Efficient Contextual Hallucination Mitigation
Title（参考訳）: グラディエント誘導アテンションマップの編集:効率的な文脈幻覚緩和に向けて
Authors: Yu Wang, Jiaxin Zhang, Xiang Gao, Wendi Cui, Peng Li, Kamalika Das,
Abstract要約: GAME(Guided Attention Map Editing)は、XSum要約タスクにおいて、幻覚を10%削減する。 GAMEは、計算効率の7倍のスピードアップを達成しながら、XSum要約タスクにおいて幻覚を10%削減する。
参考スコア（独自算出の注目度）: 11.549211777568683
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In tasks like summarization and open-book question answering (QA), Large Language Models (LLMs) often encounter "contextual hallucination", where they produce irrelevant or incorrect responses despite having access to accurate source information. This typically occurs because these models tend to prioritize self-generated content over the input context, causing them to disregard pertinent details. To address this challenge, we introduce a novel method called "Guided Attention Map Editing" (GAME), which dynamically adjusts attention maps to improve contextual relevance. During inference, GAME employs a trained classifier to identify attention maps prone to inducing hallucinations and executes targeted interventions. These interventions, guided by gradient-informed "edit directions'', strategically redistribute attention weights across various heads to effectively reduce hallucination. Comprehensive evaluations on challenging summarization and open-book QA tasks show that GAME consistently reduces hallucinations across a variety of open-source models. Specifically, GAME reduces hallucinations by 10% in the XSum summarization task while achieving a 7X speed-up in computational efficiency compared to the state-of-the-art baselines.
Abstract（参考訳）: 要約やオープンブックの質問応答(QA)のようなタスクでは、LLM(Large Language Models)は「コンテキスト幻覚(contextual hallucination)」に遭遇することが多い。これは典型的には、これらのモデルが入力コンテキストよりも自己生成コンテンツを優先する傾向にあり、関連する詳細を無視する傾向があるためである。この課題に対処するために,注視マップを動的に調整し,文脈的関連性を改善する「誘導注意マップ編集(GAME)」という新しい手法を導入する。推論の間、GAMEは訓練された分類器を使用して、幻覚を誘発し、標的とする介入を実行する傾向がある注意マップを特定する。これらの介入は、勾配にインフォームされた「編集方向」によって誘導され、幻覚を効果的に減少させるために、様々な頭を通して戦略的に注意重みを再分配する。要約とオープンソースのQAタスクに関する総合的な評価は、GAMEが様々なオープンソースモデルにおける幻覚を一貫して減少させることを示している。具体的には、XSum要約タスクの幻覚を10%削減し、最先端のベースラインに比べて計算効率の7倍の高速化を実現した。

関連論文リスト

SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.61988843996952]
Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-08-05T07:41:25Z)
CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文参考訳（メタデータ） (2025-06-30T07:52:36Z)
Stop learning it all to mitigate visual hallucination, Focus on the hallucination target [0.10571493942475592]
MLLM(Multimodal Large Language Models)はしばしば幻覚に悩まされる。幻覚は、実用的な応用においてモデルの信頼性を損なう。 Mymethodは、目標とする領域にフォーカスすることで幻覚を緩和する嗜好学習アプローチである。
論文参考訳（メタデータ） (2025-06-13T02:35:03Z)
Do You Keep an Eye on What I Ask? Mitigating Multimodal Hallucination via Attention-Guided Ensemble Decoding [5.71478837100808]
LVLM(Large Vision-Language Models)は、存在しないオブジェクトや既存のオブジェクトを誤って含むことによって、視覚的コンテンツを不正確に反映する記述を生成する。本稿では,入力画像をサブイメージに分割し,アテンションマップを通じて重みを割り当てることでロジット分布を結合する新しい戦略であるEnsemble Decoding (ED)を提案する。提案手法は,提案手法の有効性を検証し,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-05-23T06:35:43Z)
Mitigating Hallucinations in Vision-Language Models through Image-Guided Head Suppression [6.838584336878126]
大型視覚言語モデル (LVLM) はしばしば幻覚に悩まされ、視覚的文脈と一致しないテキストを生成する。推論時間介入による幻覚の低減を目的とした既存の手法は、遅延を著しく増加させる。本稿では,タスクに依存しない注意誘導型頭部抑制戦略であるSPINについて述べる。
論文参考訳（メタデータ） (2025-05-22T09:00:57Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding [12.82009632507056]
既存の視覚言語モデル(VLM)はしばしば視覚幻覚に悩まされ、生成した応答は視覚入力に基づかない不正確さを含む。本稿では、注意に基づいて関連した視覚トークンを反復的に分離し、対応する領域を拡大する新しい視覚的復号法であるパーセプション・マグニファイア(PM)を提案する。
論文参考訳（メタデータ） (2025-03-13T09:14:11Z)
PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。 HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。 PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2025-03-09T07:07:03Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。 textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文参考訳（メタデータ） (2024-11-24T13:42:02Z)
CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文参考訳（メタデータ） (2024-11-19T18:27:31Z)
Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文参考訳（メタデータ） (2024-08-18T10:07:02Z)
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文参考訳（メタデータ） (2024-03-27T16:04:47Z)
Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文参考訳（メタデータ） (2024-03-03T02:31:11Z)
Towards Mitigating Hallucination in Large Language Models via Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文参考訳（メタデータ） (2023-10-10T03:05:44Z)
Tackling Hallucinations in Neural Chart Summarization [9.09194288859985]
テキスト生成における幻覚は、システムが入力に基づかないテキストを生成するときに起こる。本研究では,学習データの事前処理を行う自然言語推論(NLI)手法を提案する。
論文参考訳（メタデータ） (2023-08-01T09:26:40Z)
Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。 MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-09-28T06:15:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。