Fugu-MT 論文翻訳(概要): Direct Distributional Optimization for Provable Alignment of Diffusion Models

論文の概要: Direct Distributional Optimization for Provable Alignment of Diffusion Models

arxiv url: http://arxiv.org/abs/2502.02954v1
Date: Wed, 05 Feb 2025 07:35:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:51.003059
Title: Direct Distributional Optimization for Provable Alignment of Diffusion Models
Title（参考訳）: 拡散モデルの確率的アライメントに対する直接分布最適化
Authors: Ryotaro Kawata, Kazusato Oko, Atsushi Nitanda, Taiji Suzuki,
Abstract要約: 分布最適化の観点から拡散モデルの新しいアライメント手法を提案する。まず、確率分布に対する一般正規化損失最小化として問題を定式化する。本研究では,Doob の $h$-transform 技術を用いてスコア関数を近似することにより,学習した分布からのサンプリングを可能にする。
参考スコア（独自算出の注目度）: 39.048284342436666
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel alignment method for diffusion models from distribution optimization perspectives while providing rigorous convergence guarantees. We first formulate the problem as a generic regularized loss minimization over probability distributions and directly optimize the distribution using the Dual Averaging method. Next, we enable sampling from the learned distribution by approximating its score function via Doob's $h$-transform technique. The proposed framework is supported by rigorous convergence guarantees and an end-to-end bound on the sampling error, which imply that when the original distribution's score is known accurately, the complexity of sampling from shifted distributions is independent of isoperimetric conditions. This framework is broadly applicable to general distribution optimization problems, including alignment tasks in Reinforcement Learning with Human Feedback (RLHF), Direct Preference Optimization (DPO), and Kahneman-Tversky Optimization (KTO). We empirically validate its performance on synthetic and image datasets using the DPO objective.
Abstract（参考訳）: 本稿では,厳密な収束保証を提供しつつ,分布最適化の観点から拡散モデルの新たなアライメント手法を提案する。まず、確率分布に対する一般正規化損失最小化として問題を定式化し、Dual Averaging法を用いて直接分布を最適化する。次に、Doobの$h$-transform技術を用いてスコア関数を近似することにより、学習した分布からのサンプリングを可能にする。提案フレームワークは厳密な収束保証とサンプリング誤差の終端境界により支持され、元の分布のスコアが正確に分かっている場合、シフトした分布からのサンプリングの複雑さは異方性条件とは無関係であることを示す。このフレームワークは、Reinforcement Learning with Human Feedback (RLHF)、Direct Preference Optimization (DPO)、Kahneman-Tversky Optimization (KTO)などのアライメントタスクを含む、一般的な分散最適化問題に適用できる。 DPOの目的を用いて,合成および画像データセット上での性能を実証的に検証した。

関連論文リスト

Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T09:14:38Z)
Stochastic Optimization with Optimal Importance Sampling [49.484190237840714]
本稿では,両者の時間的分離を必要とせずに,意思決定とIS分布を共同で更新する反復型アルゴリズムを提案する。本手法は,IS分布系に対する目的的,軽度な仮定の凸性の下で,最小の変数分散を達成し,大域収束を保証する。
論文参考訳（メタデータ） (2025-04-04T16:10:18Z)
Minimax Optimality of the Probability Flow ODE for Diffusion Models [8.15094483029656]
この研究は、決定論的ODEベースのサンプリングのための最初のエンドツーエンド理論フレームワークを開発する。 L2$のスコア誤差と関連する平均ジャコビアン誤差の両方を同時に制御するスムーズな正規化スコア推定器を提案する。得られたサンプルは全変動距離, 変調対数係数において最小値が得られることを示す。
論文参考訳（メタデータ） (2025-03-12T17:51:29Z)
Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文参考訳（メタデータ） (2024-10-17T16:42:12Z)
Distributionally and Adversarially Robust Logistic Regression via Intersecting Wasserstein Balls [8.720733751119994]
提案手法は,提案手法が標準データセットのベンチマーク手法よりも優れていることを示す。前者からインスピレーションを得て、ロジスティック回帰のためにAROのワッサーシュタイン DR について検討し、トラクタブル凸最適化の修正が認められることを示す。
論文参考訳（メタデータ） (2024-07-18T15:59:37Z)
Implicit Diffusion: Efficient Optimization through Stochastic Sampling [46.049117719591635]
パラメータ化拡散により暗黙的に定義された分布を最適化するアルゴリズムを提案する。本稿では,これらのプロセスの1次最適化のための一般的なフレームワークについて紹介する。エネルギーベースモデルのトレーニングや拡散の微調整に応用する。
論文参考訳（メタデータ） (2024-02-08T08:00:11Z)
Distributed Markov Chain Monte Carlo Sampling based on the Alternating Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文参考訳（メタデータ） (2024-01-29T02:08:40Z)
Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文参考訳（メタデータ） (2022-09-27T07:58:25Z)
Variational Refinement for Importance Sampling Using the Forward Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文参考訳（メタデータ） (2021-06-30T11:00:24Z)
Distributionally Robust Federated Averaging [19.875176871167966]
適応サンプリングを用いた堅牢な学習周期平均化のためのコミュニケーション効率の高い分散アルゴリズムを提案する。我々は、フェデレーション学習環境における理論的結果に関する実験的証拠を裏付ける。
論文参考訳（メタデータ） (2021-02-25T03:32:09Z)
Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文参考訳（メタデータ） (2020-02-16T09:01:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。