論文の概要: Mitigating Hallucinations in Diffusion Models through Adaptive Attention Modulation
- arxiv url: http://arxiv.org/abs/2502.16872v1
- Date: Mon, 24 Feb 2025 06:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:04.691042
- Title: Mitigating Hallucinations in Diffusion Models through Adaptive Attention Modulation
- Title(参考訳): 適応的注意変調による拡散モデルにおける幻覚の緩和
- Authors: Trevine Oorloff, Yaser Yacoob, Abhinav Shrivastava,
- Abstract要約: 本稿では,拡散モデルにおける自己注意機構の解析と調節により幻覚を緩和する新しいアプローチである適応注意変調(AAM)を提案する。
AAMは幻覚のアーティファクトを効果的に低減し、生成した画像の忠実さと信頼性を両立させる。
- 参考スコア(独自算出の注目度): 36.2882418279168
- License:
- Abstract: Diffusion models, while increasingly adept at generating realistic images, are notably hindered by hallucinations -- unrealistic or incorrect features inconsistent with the trained data distribution. In this work, we propose Adaptive Attention Modulation (AAM), a novel approach to mitigate hallucinations by analyzing and modulating the self-attention mechanism in diffusion models. We hypothesize that self-attention during early denoising steps may inadvertently amplify or suppress features, contributing to hallucinations. To counter this, AAM introduces a temperature scaling mechanism within the softmax operation of the self-attention layers, dynamically modulating the attention distribution during inference. Additionally, AAM employs a masked perturbation technique to disrupt early-stage noise that may otherwise propagate into later stages as hallucinations. Extensive experiments demonstrate that AAM effectively reduces hallucinatory artifacts, enhancing both the fidelity and reliability of generated images. For instance, the proposed approach improves the FID score by 20.8% and reduces the percentage of hallucinated images by 12.9% (in absolute terms) on the Hands dataset.
- Abstract(参考訳): 拡散モデルは、現実的なイメージの生成にますます適しているが、特に幻覚(非現実的または誤った特徴)によって妨げられている。
本研究では,拡散モデルにおける自己注意機構の解析と調節により幻覚を緩和する新しいアプローチである適応注意変調(AAM)を提案する。
早期認知段階における自己意識は、意図せず特徴を増幅または抑制し、幻覚に寄与する、という仮説を立てる。
これに対応するために、AAMは自己注意層のソフトマックス操作内に温度スケーリング機構を導入し、推論中の注意分布を動的に調節する。
さらに、AAMは初期のノイズを妨害するためにマスク付き摂動法を採用しており、そうでなければ幻覚として後段へと伝播する可能性がある。
大規模な実験により、AAMは幻覚のアーティファクトを効果的に低減し、生成した画像の忠実度と信頼性の両方を高めることが示されている。
例えば、提案手法では、FIDスコアを20.8%改善し、ハンズデータセット上の幻覚画像の割合を12.9%削減する(絶対的に)。
関連論文リスト
- Enhancing Hallucination Detection through Noise Injection [9.582929634879932]
大型言語モデル(LLM)は、幻覚として知られる、もっとも不正確な応答を生成する傾向にある。
ベイズ感覚のモデル不確実性を考慮し,検出精度を著しく向上できることを示す。
サンプリング中にモデルパラメータの適切なサブセット、あるいは等価に隠されたユニットアクティベーションを摂動する、非常に単純で効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T06:02:20Z) - Assessing the use of Diffusion models for motion artifact correction in brain MRI [0.6554326244334868]
我々は2次元脳MRIにおける運動アーチファクトの修正に拡散モデルを用いることを批判的に評価した。
本研究では,拡散モデルに基づく手法と最先端の手法との比較を行った。
拡散モデルは正確な予測や有害な幻覚を生成できる。
論文 参考訳(メタデータ) (2025-02-03T14:56:48Z) - Mitigating Hallucinations in Large Vision-Language Models with Internal Fact-based Contrastive Decoding [5.424048651554831]
内部Fact-based Contrastive Decoding (IFCD)は、大規模視覚言語モデル(LVLM)の推論過程における幻覚の緩和と抑制を目的としている。
IFCDはLVLMの出力を校正し、最終予測から幻覚ロジットを効果的に除去する。
実験の結果, IFCD はPOPE では平均9% の精度向上, MME では8% の精度向上を実現し, オブジェクトレベルの幻覚と属性レベルの幻覚の両方を著しく軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-03T05:08:35Z) - DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
そして、学習したアーティファクト検出器を第2段階に巻き込み、各画像に画素ごとの信頼マップを割り当てて拡散モデルをチューニングする。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - Disentangled Diffusion Autoencoder for Harmonization of Multi-site Neuroimaging Data [2.0431315722693344]
本稿では、画像の特定の側面を制御するために設計された新しい拡散モデルDDAEを紹介する。
従来の手法に比べて高分解能・高調波2次元MR画像の生成におけるDDAEの優位性を示す。
論文 参考訳(メタデータ) (2024-08-28T16:03:18Z) - Stimulating Diffusion Model for Image Denoising via Adaptive Embedding and Ensembling [56.506240377714754]
DMID(Diffusion Model for Image Denoising)と呼ばれる新しい手法を提案する。
我々の戦略は、雑音のある画像を事前訓練された非条件拡散モデルに埋め込む適応的な埋め込み法を含む。
我々のDMID戦略は、歪みベースと知覚ベースの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-08T14:59:41Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Mask, Stitch, and Re-Sample: Enhancing Robustness and Generalizability
in Anomaly Detection through Automatic Diffusion Models [8.540959938042352]
本稿では,拡散モデルのロバスト性を高める新しい手法であるAutoDDPMを提案する。
結合ノイズ分布再サンプリングにより、AutoDDPMは調和効果と塗装効果を達成する。
これはまた、現在の拡散モデルの限界に関する貴重な洞察と分析にも貢献する。
論文 参考訳(メタデータ) (2023-05-31T08:21:17Z) - DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for
Hyperspectral Image Restoration [103.79030498369319]
ハイパースペクトル画像復元のための自己教師付き拡散モデルを提案する。
textttDDS2Mは、既存の拡散法と比較して、より強力な一般化能力を持っている。
HSIのノイズ除去、ノイズ除去、様々なHSIの超解像実験は、既存のタスク固有状態よりもtextttDDS2Mの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-03-12T14:57:04Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。