論文の概要: The tractability landscape of diffusion alignment: regularization, rewards, and computational primitives
- arxiv url: http://arxiv.org/abs/2605.11361v1
- Date: Tue, 12 May 2026 00:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.492945
- Title: The tractability landscape of diffusion alignment: regularization, rewards, and computational primitives
- Title(参考訳): 拡散アライメントのトラクタビリティ・ランドスケープ--正規化、報酬、計算プリミティブ
- Authors: Ankur Moitra, Andrej Risteski, Dhruv Rohatgi,
- Abstract要約: 推論時報酬アライメントは、事前訓練された拡散モデルに基本法則$p$をサンプルにする方法を問う。
我々は、$q(x)propto p(x)exp(langle, x rangle)$ という形の線型指数傾斜が、非常に広い凸な低次元報酬のクラスに整列するのに十分な原始的であることを示す。
- 参考スコア(独自算出の注目度): 40.77652696501005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time reward alignment asks how to turn a pre-trained diffusion model with base law $p$ into a sampler that favors a reward $r$ while remaining close to $p$. Since there is no canonical distributional distance for this closeness constraint, different choices lead to different "reward-aligned" laws and, just as importantly, different algorithmic problems. We develop a primitive-based approach to reward alignment: rather than assuming arbitrary reward-aligned laws can be sampled, we ask which simple algorithmic primitives suffice to implement alignment for non-trivial reward classes. If closeness is measured in KL distance, the target law is $q(x) \propto p(x) \exp(λ^{-1}r(x))$. For this setting, we show that linear exponential tilts of the form $q(x)\propto p(x)\exp(\langle θ, x \rangle)$ -- which according to recent work [MRR26] can be efficiently sampled from -- are a sufficient primitive for aligning to a very broad class of convex low-dimensional rewards. If closeness is measured in Wasserstein distance, the corresponding primitive is a proximal transport oracle: given $x$, solve $\mbox{argmax}_y \{r(y)- λc(x,y)\}$. This oracle can be efficiently implemented for concave or low-dimensional Lipschitz rewards $r(x)=f(Ax)$. Together, these results illustrate that the choice of distribution distance for alignment affects the computational primitive and the tractable reward class.
- Abstract(参考訳): 推論時報酬アライメントは、事前訓練された拡散モデルに基本法則$p$をサンプルにする方法を問う。
この近接性制約に対する正規分布距離がないため、異なる選択は異なる「逆整合」法則と、同様に重要なアルゴリズム上の問題をもたらす。
任意の報酬整合法則をサンプリングすることができると仮定する代わりに、簡単なアルゴリズム的プリミティブが、非自明な報酬クラスに対するアライメントを実装するのに十分であるかを問う。
閉度がKL距離で測定された場合、ターゲット法則は$qである
(x) \propto p
(x) \exp(λ^{-1}r
(x)$。
この設定では、$q 形式の線型指数傾斜が示される。
(x)propto p
(x)\exp(\langle θ, x \rangle)$ -- これは最近の研究(MRR26)から効率的にサンプリングできるもので、非常に広い凸な低次元報酬のクラスに整列するのに十分なプリミティブである。
ワッサーシュタイン距離で近接度が測定された場合、対応する原始元は準輸送オラクルである:$x$, solve $\mbox{argmax}_y \{r
(y)- λc(x,y)\}$。
このオラクルは、凹凸や低次元リプシッツの報酬$rに対して効率的に実装できる
(x)=f(Ax)$
これらの結果は、アライメントに対する分布距離の選択が計算プリミティブとトラクタブル報酬クラスに影響を与えることを示している。
関連論文リスト
- Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - Robust Distribution Learning with Local and Global Adversarial Corruptions [17.22168727622332]
誤差を$sqrtvarepsilon k + rho + tildeO(dsqrtkn-1/(k lor2)$で有界な共分散を持つ場合、効率的な有限サンプルアルゴリズムを開発する。
我々の効率的な手順は、理想的だが難解な2-ワッサーシュタイン射影推定器の新たなトレースノルム近似に依存する。
論文 参考訳(メタデータ) (2024-06-10T17:48:36Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Optimal Sublinear Sampling of Spanning Trees and Determinantal Point
Processes via Average-Case Entropic Independence [3.9586758145580014]
強いレイリー分布から繰り返しサンプリングする高速アルゴリズムを設計する。
グラフ $G=(V, E)$ に対して、$G$ in $widetildeO(lvert Vrvert)$ time per sample から一様にランダムに散らばる木を概算する方法を示す。
$n$要素の基底集合の$k$のサブセット上の決定的点プロセスに対して、$widetildeO(komega)$ time の最初の $widetildeO(nk) の後に、$widetildeO(komega)$ time のサンプルを概算する方法を示す。
論文 参考訳(メタデータ) (2022-04-06T04:11:26Z) - Sampling from Log-Concave Distributions with Infinity-Distance
Guarantees and Applications to Differentially Private Optimization [33.38289436686841]
本稿では,dis distributionO(varepsilon)$close から$ infinity-distance に点を出力するアルゴリズムを提案する。
また、ディキンウォークの「ソフトパイ」バージョンも提示する。
論文 参考訳(メタデータ) (2021-11-07T13:44:50Z) - A first-order primal-dual method with adaptivity to local smoothness [64.62056765216386]
凸凹対象 $min_x max_y f(x) + langle Ax, yrangle - g*(y)$, ここで、$f$ は局所リプシッツ勾配を持つ凸関数であり、$g$ は凸かつ非滑らかである。
主勾配ステップと2段ステップを交互に交互に行うCondat-Vuアルゴリズムの適応バージョンを提案する。
論文 参考訳(メタデータ) (2021-10-28T14:19:30Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z) - Maximizing Determinants under Matroid Constraints [69.25768526213689]
我々は、$det(sum_i in Sv_i v_i v_itop)$が最大になるような基底を$S$$$$M$とする問題を研究する。
この問題は、実験的なデザイン、商品の公平な割り当て、ネットワーク設計、機械学習など、さまざまな分野に現れている。
論文 参考訳(メタデータ) (2020-04-16T19:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。