論文の概要: Mitigating Hallucinations in Diffusion Models through Adaptive Attention Modulation
- arxiv url: http://arxiv.org/abs/2502.16872v1
- Date: Mon, 24 Feb 2025 06:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.428895
- Title: Mitigating Hallucinations in Diffusion Models through Adaptive Attention Modulation
- Title(参考訳): 適応的注意変調による拡散モデルにおける幻覚の緩和
- Authors: Trevine Oorloff, Yaser Yacoob, Abhinav Shrivastava,
- Abstract要約: 本稿では,拡散モデルにおける自己注意機構の解析と調節により幻覚を緩和する新しいアプローチである適応注意変調(AAM)を提案する。
AAMは幻覚のアーティファクトを効果的に低減し、生成した画像の忠実さと信頼性を両立させる。
- 参考スコア(独自算出の注目度): 36.2882418279168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models, while increasingly adept at generating realistic images, are notably hindered by hallucinations -- unrealistic or incorrect features inconsistent with the trained data distribution. In this work, we propose Adaptive Attention Modulation (AAM), a novel approach to mitigate hallucinations by analyzing and modulating the self-attention mechanism in diffusion models. We hypothesize that self-attention during early denoising steps may inadvertently amplify or suppress features, contributing to hallucinations. To counter this, AAM introduces a temperature scaling mechanism within the softmax operation of the self-attention layers, dynamically modulating the attention distribution during inference. Additionally, AAM employs a masked perturbation technique to disrupt early-stage noise that may otherwise propagate into later stages as hallucinations. Extensive experiments demonstrate that AAM effectively reduces hallucinatory artifacts, enhancing both the fidelity and reliability of generated images. For instance, the proposed approach improves the FID score by 20.8% and reduces the percentage of hallucinated images by 12.9% (in absolute terms) on the Hands dataset.
- Abstract(参考訳): 拡散モデルは、現実的なイメージの生成にますます適しているが、特に幻覚(非現実的または誤った特徴)によって妨げられている。
本研究では,拡散モデルにおける自己注意機構の解析と調節により幻覚を緩和する新しいアプローチである適応注意変調(AAM)を提案する。
早期認知段階における自己意識は、意図せず特徴を増幅または抑制し、幻覚に寄与する、という仮説を立てる。
これに対応するために、AAMは自己注意層のソフトマックス操作内に温度スケーリング機構を導入し、推論中の注意分布を動的に調節する。
さらに、AAMは初期のノイズを妨害するためにマスク付き摂動法を採用しており、そうでなければ幻覚として後段へと伝播する可能性がある。
大規模な実験により、AAMは幻覚のアーティファクトを効果的に低減し、生成した画像の忠実度と信頼性の両方を高めることが示されている。
例えば、提案手法では、FIDスコアを20.8%改善し、ハンズデータセット上の幻覚画像の割合を12.9%削減する(絶対的に)。
関連論文リスト
- Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - A Simple Combination of Diffusion Models for Better Quality Trade-Offs in Image Denoising [43.44633086975204]
本稿では,事前学習した拡散モデルを活用するための直感的な手法を提案する。
次に,提案する線形結合拡散デノイザについて紹介する。
LCDDは最先端のパフォーマンスを達成し、制御され、よく機能するトレードオフを提供する。
論文 参考訳(メタデータ) (2025-03-18T19:02:19Z) - Tackling Hallucination from Conditional Models for Medical Image Reconstruction with DynamicDPS [3.572461722393917]
幻覚は、基礎的な真実には存在しない刺激的な構造である。
条件付き拡散モデルと非条件拡散モデルを統合する拡散ベースのフレームワークであるDynamicDPSを提案する。
本手法は,任意の条件付きモデル出力から幻覚を効果的に低減する。
論文 参考訳(メタデータ) (2025-03-03T00:33:04Z) - Enhancing Hallucination Detection through Noise Injection [9.582929634879932]
大型言語モデル(LLM)は、幻覚として知られる、もっとも不正確な応答を生成する傾向にある。
ベイズ感覚のモデル不確実性を考慮し,検出精度を著しく向上できることを示す。
サンプリング中にモデルパラメータの適切なサブセット、あるいは等価に隠されたユニットアクティベーションを摂動する、非常に単純で効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T06:02:20Z) - Assessing the use of Diffusion models for motion artifact correction in brain MRI [0.6554326244334868]
我々は2次元脳MRIにおける運動アーチファクトの修正に拡散モデルを用いることを批判的に評価した。
本研究では,拡散モデルに基づく手法と最先端の手法との比較を行った。
拡散モデルは正確な予測や有害な幻覚を生成できる。
論文 参考訳(メタデータ) (2025-02-03T14:56:48Z) - Mitigating Hallucinations in Large Vision-Language Models with Internal Fact-based Contrastive Decoding [5.424048651554831]
内部Fact-based Contrastive Decoding (IFCD)は、大規模視覚言語モデル(LVLM)の推論過程における幻覚の緩和と抑制を目的としている。
IFCDはLVLMの出力を校正し、最終予測から幻覚ロジットを効果的に除去する。
実験の結果, IFCD はPOPE では平均9% の精度向上, MME では8% の精度向上を実現し, オブジェクトレベルの幻覚と属性レベルの幻覚の両方を著しく軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-03T05:08:35Z) - DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
そして、学習したアーティファクト検出器を第2段階に巻き込み、各画像に画素ごとの信頼マップを割り当てて拡散モデルをチューニングする。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - Stimulating Diffusion Model for Image Denoising via Adaptive Embedding and Ensembling [56.506240377714754]
DMID(Diffusion Model for Image Denoising)と呼ばれる新しい手法を提案する。
我々の戦略は、雑音のある画像を事前訓練された非条件拡散モデルに埋め込む適応的な埋め込み法を含む。
我々のDMID戦略は、歪みベースと知覚ベースの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-08T14:59:41Z) - Mask, Stitch, and Re-Sample: Enhancing Robustness and Generalizability
in Anomaly Detection through Automatic Diffusion Models [8.540959938042352]
本稿では,拡散モデルのロバスト性を高める新しい手法であるAutoDDPMを提案する。
結合ノイズ分布再サンプリングにより、AutoDDPMは調和効果と塗装効果を達成する。
これはまた、現在の拡散モデルの限界に関する貴重な洞察と分析にも貢献する。
論文 参考訳(メタデータ) (2023-05-31T08:21:17Z) - DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for
Hyperspectral Image Restoration [103.79030498369319]
ハイパースペクトル画像復元のための自己教師付き拡散モデルを提案する。
textttDDS2Mは、既存の拡散法と比較して、より強力な一般化能力を持っている。
HSIのノイズ除去、ノイズ除去、様々なHSIの超解像実験は、既存のタスク固有状態よりもtextttDDS2Mの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-03-12T14:57:04Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。