論文の概要: Initialization is Half the Battle: Generating Diverse Images from a Guidance Potential Posterior
- arxiv url: http://arxiv.org/abs/2606.02453v1
- Date: Mon, 01 Jun 2026 16:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.500344
- Title: Initialization is Half the Battle: Generating Diverse Images from a Guidance Potential Posterior
- Title(参考訳): 戦闘の初期化:誘導電位後部から横画像を生成する
- Authors: Xiang Li, Dianbo Liu, Kenji Kawaguchi,
- Abstract要約: 誘導電位後部から初期雑音の選択を定式化し,多様性に富む領域への事前の重み付けを効果的に行う。
この分布を効率的にサンプリングするために、ダイバーシティ誘導初期化(DivIn)を紹介する。
本手法は,拡散モデルと流れマッチングモデルの両方に適合する推論時多様性向上として機能する。
- 参考スコア(独自算出の注目度): 51.62608628984139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable fidelity of generative models, they frequently suffer from mode collapse. Existing strategies for enhancing diversity predominantly focus on intervening during the generation trajectory. We identify a critical oversight that the standard Gaussian initialization often causes trajectories to collapse into dominant modes because it is agnostic to the guidance potential landscape. In this work, we formulate selecting the initial noise from a guidance potential posterior, which effectively re-weights the prior towards diversity-rich regions. To sample from this distribution efficiently, we introduce Diversity-inducing Initialization (DivIn), which leverages Langevin dynamics to actively navigate the initialization landscape, steering initial noise away from collapsing regions while anchoring them to the valid data manifold. Our method serves as an inference-time diversity enhancement compatible with both diffusion and flow matching models. Extensive experiments show that DivIn exhibits a superior performance in both class-to-image and text-to-image scenarios. Furthermore, we highlight that as DivIn is orthogonal to trajectory-based methods, combining them significantly expands the diversity-quality Pareto frontier beyond what either achieves in isolation.
- Abstract(参考訳): 生成モデルの顕著な忠実さにもかかわらず、しばしばモード崩壊に悩まされる。
多様性を高めるための既存の戦略は、主に世代軌道における介入に焦点を当てている。
標準ガウスの初期化はしばしば軌道が支配的なモードに崩壊する。
本研究は, 誘導電位後部から初期雑音の選択を定式化し, 多様性に富む領域への事前の重み付けを効果的に行う。
この分布を効率よくサンプリングするために,Langevinのダイナミックスを利用したDivIn(Diversity-inducing Initialization)を導入する。
本手法は,拡散モデルと流れマッチングモデルの両方に適合する推論時多様性向上として機能する。
大規模な実験では、DivInはクラス・ツー・イメージのシナリオとテキスト・ツー・イメージのシナリオの両方で優れたパフォーマンスを示している。
さらに、DivInはトラジェクトリベースの手法と直交するので、それらを組み合わせることで、多様性の高いParetoフロンティアを、どちらが単独で達成できるかを大きく広げる。
関連論文リスト
- Anomaly-Preference Image Generation [41.96735569500412]
本稿では,Anomaly Preference Optimizationを導入する。Anomaly Preference Optimizationは,Anomaly Generationを優先学習問題として再構成する新しいパラダイムである。
我々は,本手法が既存のベースラインを著しく上回り,現実主義と多様性の両面で最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2026-05-04T10:37:09Z) - Scaling Dense Event-Stream Pretraining from Visual Foundation Models [112.44243079477137]
我々は,視覚基礎モデル(VFM)を蒸留して,イベント表現の境界を大規模に推し進める,新しい自己教師型事前学習手法をローンチする。
我々は、クロスモーダルアライメントを増幅するために、広範に同期された画像イベントコレクションをキュレートする。
VFMによって提供されるセマンティックな構造にアライメントの目的を拡張し、より広い受容領域とより強い監督力を示す。
論文 参考訳(メタデータ) (2026-03-04T12:06:09Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling [82.52485740425321]
アドリアックは、ディープニューラルネットワークの堅牢性にとって重要な課題である。
敵攻撃の伝達性は、爆発(最大攻撃能力)と探索(クロスモデル一般化の促進)のジレンマに直面している
論文 参考訳(メタデータ) (2025-11-01T05:43:47Z) - Diverse Text-to-Image Generation via Contrastive Noise Optimization [60.48914865049489]
テキスト・ツー・イメージ(T2I)拡散モデルは高忠実度画像の生成において顕著な性能を示した。
既存のアプローチは通常、推論中に中間の潜伏状態やテキスト条件を最適化する。
本稿では,多様性問題に異なる視点から対処する簡易かつ効果的な手法であるContrastive Noise Optimizationを紹介する。
論文 参考訳(メタデータ) (2025-10-04T13:51:32Z) - Stage-wise Dynamics of Classifier-Free Guidance in Diffusion Models [13.030934039187171]
CFGは拡散モデルにおける条件の忠実度向上に広く用いられているが、サンプリング力学への影響はよく分かっていない。
CFGをマルチモーダル条件下で解析し,サンプリングプロセスが3段階に展開することを示す。
実験はこれらの予測を支持し、早期の強いガイダンスが世界的な多様性を損なう一方で、後期の強いガイダンスはきめ細かい変化を抑制することを示した。
論文 参考訳(メタデータ) (2025-09-26T07:45:20Z) - TransDiffuser: Diverse Trajectory Generation with Decorrelated Multi-modal Representation for End-to-end Autonomous Driving [20.679370777762987]
エンコーダデコーダに基づく生成軌道計画モデルであるTransDiffuserを提案する。
単純なマルチモーダル表現デコレーションのデノナイジング過程におけるデコレーション最適化機構を利用する。
TransDiffuserは、クローズドループ計画指向ベンチマークNAVSIMで94.85のPDMSを達成する。
論文 参考訳(メタデータ) (2025-05-14T12:10:41Z) - Spontaneous Symmetry Breaking in Generative Diffusion Models [6.4322891559626125]
生成拡散モデルは近年,高次元データ生成の先導的アプローチとして浮上している。
これらのモデルの力学は、生成力学を2つの異なる位相に分割する自発的対称性の破れを示す。
本稿では,より高性能でバイアスの少ない高速サンプリングを実現する可能性を持つ拡散モデルの生成力学を理解するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T09:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。