論文の概要: Towards Understanding Text Hallucination of Diffusion Models via Local Generation Bias
- arxiv url: http://arxiv.org/abs/2503.03595v1
- Date: Wed, 05 Mar 2025 15:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:15.645293
- Title: Towards Understanding Text Hallucination of Diffusion Models via Local Generation Bias
- Title(参考訳): ローカルジェネレーションバイアスによる拡散モデルのテキストハロシン化の理解に向けて
- Authors: Rui Lu, Runzhe Wang, Kaifeng Lyu, Xitai Jiang, Gao Huang, Mengdi Wang,
- Abstract要約: 本稿では,拡散モデルが個々のシンボルを正しく生成するが,それらを意味のない方法で組み立てるテキスト幻覚に焦点を当てる。
このような現象は,ネットワークの局所的生成バイアスに起因すると考えられる。
また、ハイパーキューブ上の2層学習パリティポイントを含む特定のケースのトレーニングダイナミクスを理論的に解析する。
- 参考スコア(独自算出の注目度): 76.85949078144098
- License:
- Abstract: Score-based diffusion models have achieved incredible performance in generating realistic images, audio, and video data. While these models produce high-quality samples with impressive details, they often introduce unrealistic artifacts, such as distorted fingers or hallucinated texts with no meaning. This paper focuses on textual hallucinations, where diffusion models correctly generate individual symbols but assemble them in a nonsensical manner. Through experimental probing, we consistently observe that such phenomenon is attributed it to the network's local generation bias. Denoising networks tend to produce outputs that rely heavily on highly correlated local regions, particularly when different dimensions of the data distribution are nearly pairwise independent. This behavior leads to a generation process that decomposes the global distribution into separate, independent distributions for each symbol, ultimately failing to capture the global structure, including underlying grammar. Intriguingly, this bias persists across various denoising network architectures including MLP and transformers which have the structure to model global dependency. These findings also provide insights into understanding other types of hallucinations, extending beyond text, as a result of implicit biases in the denoising models. Additionally, we theoretically analyze the training dynamics for a specific case involving a two-layer MLP learning parity points on a hypercube, offering an explanation of its underlying mechanism.
- Abstract(参考訳): スコアベースの拡散モデルは、リアルな画像、オーディオ、およびビデオデータを生成する上で、素晴らしいパフォーマンスを達成した。
これらのモデルは、印象的な詳細を持つ高品質なサンプルを生成するが、しばしば、歪んだ指や無意味な幻覚テキストのような非現実的なアーティファクトを導入する。
本稿では,拡散モデルが個々のシンボルを正しく生成するが,それらを意味のない方法で組み立てるテキスト幻覚に焦点を当てる。
実験的な探索を通して、そのような現象がネットワークの局所的な生成バイアスに起因することを一貫して観察する。
遅延ネットワークは、特にデータ分布の異なる次元がほぼペア独立である場合、高度に相関した局所領域に強く依存する出力を生成する傾向にある。
この振る舞いは、グローバル分布を各シンボルごとに独立した独立分布に分解する生成プロセスをもたらし、最終的には、基礎となる文法を含むグローバル構造を捕捉することができない。
興味深いことに、このバイアスは、グローバルな依存関係をモデル化する構造を持つMLPやトランスフォーマーなど、さまざまなデノベーションネットワークアーキテクチャに持続する。
これらの発見はまた、認知モデルにおける暗黙のバイアスの結果、テキストを超えて広がる他の種類の幻覚を理解するための洞察を与える。
さらに,ハイパーキューブ上の2層MLP学習パリティポイントを含む特定のケースのトレーニングダイナミクスを理論的に解析し,その基盤となるメカニズムを説明する。
関連論文リスト
- Compositional Generalization Requires More Than Disentangled Representations [5.762286612061953]
作曲の一般化は 深層学習の鍵となる課題です
多くの生成モデルは、アウト・オブ・ディストリビューション(OOD)サンプルを生成する因子を認識し、構成することができない。
正規化や訓練データによるアーキテクチャ変更を強制的に行うモデルは,OOD領域の学習において,データ効率が高く,効果的であることを示す。
論文 参考訳(メタデータ) (2025-01-30T23:20:41Z) - Generalized Diffusion Model with Adjusted Offset Noise [1.7767466724342067]
本稿では,厳密な確率的枠組みの中で自然に付加的な雑音を取り入れた一般化拡散モデルを提案する。
我々は、ある調整でノイズを相殺する理論的等価性を確立し、証拠の低い境界に基づいて損失関数を導出する。
合成データセットの実験により、我々のモデルは輝度に関する課題に効果的に対処し、高次元シナリオにおいて従来の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-04T08:57:03Z) - Understanding Generalizability of Diffusion Models Requires Rethinking the Hidden Gaussian Structure [8.320632531909682]
学習したスコア関数の隠れた性質を調べた結果,拡散モデルの一般化可能性について検討した。
拡散モデルが記憶から一般化へと遷移するにつれて、対応する非線形拡散デノイザは線形性を増加させる。
論文 参考訳(メタデータ) (2024-10-31T15:57:04Z) - Understanding Hallucinations in Diffusion Models through Mode Interpolation [89.10226585746848]
拡散モデルにおける特定の障害モードについて検討し、これをモードモードと呼ぶ。
トレーニングセット内のデータモード間の拡散モデルを円滑に"補間"し,元のトレーニング分布の支持から完全に外れたサンプルを生成する。
幻覚が、かつて存在しなかった形の組み合わせをいかに生み出すかを示す。
論文 参考訳(メタデータ) (2024-06-13T17:43:41Z) - Analyzing Bias in Diffusion-based Face Generation Models [75.80072686374564]
拡散モデルは、合成データ生成と画像編集アプリケーションでますます人気がある。
本研究では, 性別, 人種, 年齢などの属性に関して, 拡散型顔生成モデルにおけるバイアスの存在について検討する。
本研究は,GAN(Generative Adversarial Network)とGAN(Generative Adversarial Network)をベースとした顔生成モデルにおいて,データセットサイズが属性組成および知覚品質に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-10T18:22:31Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Image Embedding for Denoising Generative Models [0.0]
逆拡散過程の決定論的性質から拡散入射モデルに着目する。
本研究の副次として,拡散モデルの潜伏空間の構造についてより深い知見を得た。
論文 参考訳(メタデータ) (2022-12-30T17:56:07Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。