論文の概要: Dominating vs. Dominated: Generative Collapse in Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.20666v1
- Date: Fri, 19 Dec 2025 06:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.549916
- Title: Dominating vs. Dominated: Generative Collapse in Diffusion Models
- Title(参考訳): 支配対支配:拡散モデルにおける生成的崩壊
- Authors: Hayeon Jeong, Jong-Seok Lee,
- Abstract要約: 本稿では,テキスト・画像生成におけるDvDの不均衡を系統的に解析する。
トレーニングデータの限られたインスタンスの多様性は、概念間干渉を悪化させることを示す。
本研究は, より信頼性が高く, 制御可能なテキスト・ツー・イメージ・ジェネレーションに向けた, 生成的崩壊に関する重要な知見を提供する。
- 参考スコア(独自算出の注目度): 23.73320512301939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have drawn significant attention for their ability to generate diverse and high-fidelity images. However, when generating from multi-concept prompts, one concept token often dominates the generation, suppressing the others-a phenomenon we term the Dominant-vs-Dominated (DvD) imbalance. To systematically analyze this imbalance, we introduce DominanceBench and examine its causes from both data and architectural perspectives. Through various experiments, we show that the limited instance diversity in training data exacerbates the inter-concept interference. Analysis of cross-attention dynamics further reveals that dominant tokens rapidly saturate attention, progressively suppressing others across diffusion timesteps. In addition, head ablation studies show that the DvD behavior arises from distributed attention mechanisms across multiple heads. Our findings provide key insights into generative collapse, advancing toward more reliable and controllable text-to-image generation.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは多彩で高忠実な画像を生成する能力において大きな注目を集めている。
しかし、マルチコンセプトプロンプトから生成されるとき、ある概念トークンが生成を支配し、他の現象を抑圧する。
この不均衡を系統的に解析するために、ドミナンスベンチを導入し、その原因をデータとアーキテクチャの両方の観点から検討する。
様々な実験を通して、訓練データの限られたインスタンスの多様性が概念間干渉を悪化させることを示す。
クロスアテンションダイナミクスの解析により、支配的トークンは急速に注意を飽和させ、拡散の時間経過を越えて他のトークンを徐々に抑制することが明らかとなった。
さらに、頭部アブレーション研究により、複数の頭部に分散された注意機構からDvDの挙動が生じることが示された。
本研究は, より信頼性が高く, 制御可能なテキスト・ツー・イメージ・ジェネレーションに向けた, 生成的崩壊に関する重要な知見を提供する。
関連論文リスト
- Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction [59.801614364841775]
LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
論文 参考訳(メタデータ) (2025-12-21T17:05:42Z) - Counterfactual Visual Explanation via Causally-Guided Adversarial Steering [30.226972511117197]
対物的視覚的説明に関する最近の研究は、人工知能モデルをより説明しやすいものにするために貢献している。
これらのアプローチは、画像生成プロセスの背後にある因果関係と突発的な相関を無視する。
本稿では、まず因果的に誘導された逆法を利用して、対実的説明を生成する新しいフレームワークCECASを紹介する。
論文 参考訳(メタデータ) (2025-07-14T03:36:36Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models [43.465268635499754]
テストタイム計算は、拡張推論チェーンを生成するために、大きな言語モデルに権限を与えた。
世代が長くなるにつれて、モデルは画像付きコンテンツから遠ざかっていき、言語優先に大きく依存する傾向にある。
論文 参考訳(メタデータ) (2025-05-23T05:08:40Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Decentralized Adversarial Training over Graphs [44.03711922549992]
近年、敵攻撃に対する機械学習モデルの脆弱性が注目されている。
マルチエージェントシステムのための分散逆数フレームワークを開発する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。