論文の概要: Understanding Hallucinations in Diffusion Models through Mode Interpolation
- arxiv url: http://arxiv.org/abs/2406.09358v1
- Date: Thu, 13 Jun 2024 17:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:25:49.624380
- Title: Understanding Hallucinations in Diffusion Models through Mode Interpolation
- Title(参考訳): モード補間による拡散モデルにおける幻覚の理解
- Authors: Sumukh K Aithal, Pratyush Maini, Zachary C. Lipton, J. Zico Kolter,
- Abstract要約: 拡散モデルにおける特定の障害モードについて検討し、これをモードモードと呼ぶ。
トレーニングセット内のデータモード間の拡散モデルを円滑に"補間"し,元のトレーニング分布の支持から完全に外れたサンプルを生成する。
幻覚が、かつて存在しなかった形の組み合わせをいかに生み出すかを示す。
- 参考スコア(独自算出の注目度): 89.10226585746848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Colloquially speaking, image generation models based upon diffusion processes are frequently said to exhibit "hallucinations," samples that could never occur in the training data. But where do such hallucinations come from? In this paper, we study a particular failure mode in diffusion models, which we term mode interpolation. Specifically, we find that diffusion models smoothly "interpolate" between nearby data modes in the training set, to generate samples that are completely outside the support of the original training distribution; this phenomenon leads diffusion models to generate artifacts that never existed in real data (i.e., hallucinations). We systematically study the reasons for, and the manifestation of this phenomenon. Through experiments on 1D and 2D Gaussians, we show how a discontinuous loss landscape in the diffusion model's decoder leads to a region where any smooth approximation will cause such hallucinations. Through experiments on artificial datasets with various shapes, we show how hallucination leads to the generation of combinations of shapes that never existed. Finally, we show that diffusion models in fact know when they go out of support and hallucinate. This is captured by the high variance in the trajectory of the generated sample towards the final few backward sampling process. Using a simple metric to capture this variance, we can remove over 95% of hallucinations at generation time while retaining 96% of in-support samples. We conclude our exploration by showing the implications of such hallucination (and its removal) on the collapse (and stabilization) of recursive training on synthetic data with experiments on MNIST and 2D Gaussians dataset. We release our code at https://github.com/locuslab/diffusion-model-hallucination.
- Abstract(参考訳): 口語的に言えば、拡散過程に基づく画像生成モデルは、トレーニングデータでは起こり得ない「幻覚」を示すとしばしば言われる。
しかし、このような幻覚はどこから来るのか?
本稿では,拡散モデルにおける特定の障害モードについて検討し,これをモード補間と呼ぶ。
具体的には、拡散モデルがトレーニングセット内の近傍のデータモード間で円滑に「補間」され、元のトレーニング分布の支持外にあるサンプルが生成されることを発見し、この現象によって拡散モデルが実際のデータに存在しない人工物(幻覚)を生成する。
我々は,この現象の原因と発現について系統的に研究する。
1Dおよび2Dガウスの実験を通して、拡散モデルのデコーダにおける不連続な損失景観が、どんな滑らかな近似もそのような幻覚を引き起こす領域にどのように導かれるかを示す。
様々な形状の人工データセットの実験を通して、幻覚が、これまで存在しなかった形状の組み合わせをいかに生み出すかを示す。
最後に、拡散モデルが実際に、彼らがサポートをやめて幻覚になったときを知っていることを示す。
これは、最後の数個の後方サンプリングプロセスに向けて、生成されたサンプルの軌道の高ばらつきによって捉えられる。
この分散を捉えるために単純な測定値を用いることで、95%以上の幻覚を世代ごとに除去し、96%の非支持サンプルを保持できる。
本研究は,MNISTおよび2次元ガウスデータセットを用いた合成データに対する再帰的トレーニングの崩壊(および安定化)に対する幻覚(とその除去)の影響を示すことにより,本研究を結論付けている。
コードをhttps://github.com/locuslab/diffusion-model-hallucinationでリリースしています。
関連論文リスト
- Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Particle Denoising Diffusion Sampler [32.310922004771776]
Particle Denoising Diffusion Sampler (PDDS) は、軽微な仮定の下で一貫した推定を提供する。
マルチモーダルおよび高次元サンプリングタスクにおけるPDDSの実証を行った。
論文 参考訳(メタデータ) (2024-02-09T11:01:35Z) - Lecture Notes in Probabilistic Diffusion Models [0.5361320134021585]
拡散モデルは非平衡熱力学に基づいてゆるやかにモデル化される。
拡散モデルは、元のデータサンプルが属するデータ多様体を学習する。
拡散モデルは、変分オートエンコーダやフローモデルとは異なり、元のデータと同じ次元の潜伏変数を持つ。
論文 参考訳(メタデータ) (2023-12-16T09:36:54Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Diffusion with Forward Models: Solving Stochastic Inverse Problems
Without Direct Supervision [76.32860119056964]
本稿では,直接観測されない信号の分布からサンプルを学習する拡散確率モデルを提案する。
コンピュータビジョンの課題3つの課題に対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-20T17:53:00Z) - To smooth a cloud or to pin it down: Guarantees and Insights on Score Matching in Denoising Diffusion Models [20.315727650065007]
微分拡散モデル(Denoising diffusion model)は、最近多くの領域で最先端の結果を得た生成モデルのクラスである。
我々は、F"ollmer flow"に似た既知の接続を利用して、F"ollmer drift"の確立されたニューラルネットワーク近似結果を拡張し、拡散モデルとサンプリング器をデノナイズする。
論文 参考訳(メタデータ) (2023-05-16T16:56:19Z) - Denoising Diffusion Samplers [41.796349001299156]
拡散モデルの認知は、多くの領域で最先端の結果を提供する生成モデルの一般的なクラスである。
我々は、非正規化確率密度関数から大まかにサンプリングし、それらの正規化定数を推定する類似のアイデアを探求する。
この文脈ではスコアマッチングは適用できないが、モンテカルロサンプリングのために生成的モデリングで導入された多くのアイデアを利用することができる。
論文 参考訳(メタデータ) (2023-02-27T14:37:16Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z) - Unsupervised learning of anomalous diffusion data [0.0]
データのラベル付けを必要とせずに,主な拡散特性を学習できることが示される。
また、既存の拡散モデルの合成によって表現される新しい種類の拡散を見つける可能性についても検討する。
論文 参考訳(メタデータ) (2021-08-07T09:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。