論文の概要: Ctrl-Z Sampling: Diffusion Sampling with Controlled Random Zigzag Explorations
- arxiv url: http://arxiv.org/abs/2506.20294v2
- Date: Wed, 06 Aug 2025 13:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:09.004308
- Title: Ctrl-Z Sampling: Diffusion Sampling with Controlled Random Zigzag Explorations
- Title(参考訳): Ctrl-Zサンプリング:ランダムジグザグ探索による拡散サンプリング
- Authors: Shunqi Mao, Wei Guo, Chaoyi Zhang, Jieting Long, Ke Xie, Weidong Cai,
- Abstract要約: 本稿では,局所的な急激な最大値の検出と回避を適応的に行う新しいサンプリング戦略を提案する。
Ctrl-Zサンプリングは、関数評価の回数をわずか6.72倍にするだけで、生成品質を大幅に改善する。
- 参考スコア(独自算出の注目度): 14.543484922782751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown strong performance in conditional generation by progressively denoising Gaussian samples toward a target data distribution. This denoising process can be interpreted as a form of hill climbing in a learned latent space, where the model iteratively refines a sample toward regions of higher probability. However, this learned climbing often converges to local optima with plausible but suboptimal generations due to latent space complexity and suboptimal initialization. While prior efforts often strengthen guidance signals or introduce fixed exploration strategies to address this, they exhibit limited capacity to escape steep local maxima. In contrast, we propose Controlled Random Zigzag Sampling (Ctrl-Z Sampling), a novel sampling strategy that adaptively detects and escapes such traps through controlled exploration. In each diffusion step, we first identify potential local maxima using a reward model. Upon such detection, we inject noise and revert to a previous, noisier state to escape the current plateau. The reward model then evaluates candidate trajectories, accepting only those that offer improvement, otherwise scheming progressively deeper explorations when nearby alternatives fail. This controlled zigzag process allows dynamic alternation between forward refinement and backward exploration, enhancing both alignment and visual quality in the generated outputs. The proposed method is model-agnostic and also compatible with existing diffusion frameworks. Experimental results show that Ctrl-Z Sampling substantially improves generation quality with only around 6.72x increase in the number of function evaluations.
- Abstract(参考訳): 拡散モデルは、ガウスサンプルを目標データ分布に向けて段階的にデノベーションすることで条件生成において強い性能を示す。
このデノナイジング過程は、学習された潜在空間におけるヒルクライミングの一形態として解釈することができ、モデルがより高い確率の領域に向けてサンプルを反復的に洗練する。
しかし、この学習された登山はしばしば、潜伏空間の複雑さと準最適初期化のために、可塑性であるが準最適世代と共に局所最適に収束する。
事前の努力はしばしば誘導信号を強化したり、この問題に対処するための固定された探査戦略を導入するが、急激な局地的最大から逃れる能力は限られている。
対照的に、制御探索によりこれらのトラップを適応的に検出し、回避する新しいサンプリング戦略であるCtrl-Zサンプリング(Ctrl-Z)を提案する。
各拡散過程において,まず報酬モデルを用いて局所的最大値を求める。
このような検出を行うと、ノイズを注入し、前のノイズ状態に戻り、現在の高原から逃れる。
その後、報酬モデルが候補の軌道を評価し、改善を提供するもののみを受け入れ、それ以外は近隣の代替案が失敗した場合に徐々に深い探索を行う。
この制御されたジグザグプロセスは、前方精錬と後方探査のダイナミックな交互化を可能にし、生成した出力のアライメントと視覚的品質の両方を向上する。
提案手法はモデルに依存しず,既存の拡散フレームワークと互換性がある。
実験の結果,Ctrl-Zサンプリングは機能評価の6.72倍程度で生成品質を著しく向上することがわかった。
関連論文リスト
- Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。
この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文 参考訳(メタデータ) (2025-06-11T06:01:39Z) - Adaptive Destruction Processes for Diffusion Samplers [12.446080077998834]
本稿では,拡散サンプリング装置におけるトレーニング可能な破壊プロセスの課題とメリットについて考察する。
ステップ数に制限がある場合、生成過程と破壊過程の両方を訓練することで、より高速な収束とサンプリング品質の向上が期待できる。
論文 参考訳(メタデータ) (2025-06-02T11:07:27Z) - A Minimalist Method for Fine-tuning Text-to-Image Diffusion Models [3.8623569699070357]
ノイズPPOは、初期雑音発生器を学習する最小限の強化学習アルゴリズムである。
実験により、ノイズPPOは元のモデルよりもアライメントとサンプル品質を一貫して改善することが示された。
これらの知見は拡散モデルにおける最小主義的RL微調整の実用的価値を裏付けるものである。
論文 参考訳(メタデータ) (2025-05-23T00:01:52Z) - Quantizing Diffusion Models from a Sampling-Aware Perspective [43.95032520555463]
本稿では,混合次軌道アライメント手法を考案したサンプリング対応量子化手法を提案する。
複数のデータセットにまたがるスパースステップ高速サンプリング実験により,本手法は高速サンプリング器の高速収束特性を保っていることが示された。
論文 参考訳(メタデータ) (2025-05-04T20:50:44Z) - Distributional Diffusion Models with Scoring Rules [83.38210785728994]
拡散モデルは高品質な合成データを生成する。
高品質な出力を生成するには、多くの離散化ステップが必要です。
クリーンデータサンプルの後部エム分布を学習し,サンプル生成を実現することを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:59:03Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Enhancing Diffusion Posterior Sampling for Inverse Problems by Integrating Crafted Measurements [45.70011319850862]
拡散モデルは視覚生成のための強力な基礎モデルとして登場してきた。
現在の後方サンプリングに基づく手法では、測定結果を後方サンプリングに取り込み、対象データの分布を推定する。
本研究は, 早期に高周波情報を早期に導入し, より大きい推定誤差を生じさせることを示す。
工芸品計測を取り入れた新しい拡散後サンプリング手法DPS-CMを提案する。
論文 参考訳(メタデータ) (2024-11-15T00:06:57Z) - Posterior sampling via Langevin dynamics based on generative priors [31.84543941736757]
生成モデルを用いた高次元空間における後方サンプリングは、様々な応用に有望である。
既存の手法では、新しいサンプルごとに生成プロセス全体を再起動する必要があるため、計算コストがかかる。
事前学習した生成モデルの雑音空間におけるランゲヴィンダイナミクスをシミュレーションし,効率的な後部サンプリングを提案する。
論文 参考訳(メタデータ) (2024-10-02T22:57:47Z) - Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。
本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Score-based Generative Models with Adaptive Momentum [40.84399531998246]
変換過程を高速化する適応運動量サンプリング法を提案する。
提案手法は,2倍から5倍の速度で,より忠実な画像/グラフを小さなサンプリングステップで作成できることを示す。
論文 参考訳(メタデータ) (2024-05-22T15:20:27Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - PCB-RandNet: Rethinking Random Sampling for LIDAR Semantic Segmentation
in Autonomous Driving Scene [15.516687293651795]
大規模LiDAR点雲のセマンティックセグメンテーションのための新しいポーラシリンダバランスランダムサンプリング法を提案する。
さらに,セグメント化性能を向上し,異なるサンプリング法下でのモデルのばらつきを低減するため,サンプリング一貫性損失が導入された。
提案手法は,SemanticKITTIベンチマークとSemanticPOSSベンチマークの両方で優れた性能を示し,それぞれ2.8%と4.0%の改善を実現している。
論文 参考訳(メタデータ) (2022-09-28T02:59:36Z) - Diverse Human Motion Prediction via Gumbel-Softmax Sampling from an
Auxiliary Space [34.83587750498361]
多様な人間の動き予測は、観測されたポーズのシーケンスから、複数の将来のポーズシーケンスを予測することを目的としている。
従来のアプローチでは、通常、データの条件分布をモデル化するために深い生成ネットワークを使用し、その後、分布からランダムにサンプル結果を得る。
不均衡なマルチモーダル分布から非常に多様な結果をサンプリングするための新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T09:03:57Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。