論文の概要: Adjoint Matching through the Lens of the Stochastic Maximum Principle in Optimal Control
- arxiv url: http://arxiv.org/abs/2604.08580v1
- Date: Sat, 28 Mar 2026 13:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.456754
- Title: Adjoint Matching through the Lens of the Stochastic Maximum Principle in Optimal Control
- Title(参考訳): 最適制御における確率的最大原理のレンズによる随伴マッチング
- Authors: Carles Domingo-Enrich, Jiequn Han,
- Abstract要約: 拡散・流動モデルの逆微調整と傾斜あるいはボルツマンからのサンプリングは、どちらも最適制御(SOC)問題として定式化できる。
我々は、最適制御を学習するためのSOCに基づく提案手法を再検討し、それを最大原理(SMP)から導出し、厳密な足場に配置する。
反復はSMPによって誘導される連続近似の連続時間法として正確に解釈できることを示す。
- 参考スコア(独自算出の注目度): 12.577114890059187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward fine-tuning of diffusion and flow models and sampling from tilted or Boltzmann distributions can both be formulated as stochastic optimal control (SOC) problems, where learning an optimal generative dynamics corresponds to optimizing a control under SDE constraints. In this work, we revisit and generalize Adjoint Matching, a recently proposed SOC-based method for learning optimal controls, and place it on a rigorous footing by deriving it from the Stochastic Maximum Principle (SMP). We formulate a general Hamiltonian adjoint matching objective for SOC problems with control-dependent drift and diffusion and convex running costs, and show that its expected value has the same first variation as the original SOC objective. As a consequence, critical points satisfy the Hamilton--Jacobi--Bellman (HJB) stationarity conditions. In the important practical case of state- and control-independent diffusion, we recover the lean adjoint matching loss previously introduced in adjoint matching, which avoids second-order terms and whose critical points coincide with the optimal control under mild uniqueness assumptions. Finally, we show that adjoint matching can be precisely interpreted as a continuous-time method of successive approximations induced by the SMP, yielding a practical and implementable alternative to classical SMP-based algorithms, which are obstructed by intractable martingale terms in the stochastic setting. These results are also of independent interest to the stochastic control community, providing new implementable objectives and a viable pathway for SMP-based iterations in stochastic problems.
- Abstract(参考訳): 拡散・流動モデルの逆微調整と傾動あるいはボルツマン分布からのサンプリングはどちらも確率的最適制御(SOC)問題として定式化することができ、最適生成力学の学習はSDE制約の下での制御の最適化に対応する。
本研究では,最近提案された最適制御学習法であるAdjoint Matchingを再検討し,それを確率的最大原理(SMP)から導出した厳密な足場に配置する。
制御依存的ドリフト・拡散・凸走行コストを伴うSOC問題に対する一般ハミルトン随伴目的を定式化し、その期待値が元のSOC目標と同じ第1変量であることを示す。
その結果、臨界点はハミルトン-ヤコビ-ベルマン(HJB)定常条件を満たす。
状態独立拡散と制御独立拡散の重要な実践例では, 2次項を回避し, 臨界点が軽度一意性仮定の下で最適制御と一致するような, 先行マッチングで以前に導入されたリーン随伴整合損失を回復する。
最後に,SMPによって誘導される連続近似の連続的時間的手法として,確率的条件下での難解なマーチンゲール項によって阻害される古典的SMPアルゴリズムに代わる実用的で実装可能な代替手法として,共役マッチングが正確に解釈可能であることを示す。
これらの結果は、確率的制御コミュニティに独立した関心を持ち、新しい実装可能な目的と確率的問題におけるSMPベースの反復の実行可能な経路を提供する。
関連論文リスト
- Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - On the Convergence of Jacobian-Free Backpropagation for Optimal Control Problems with Implicit Hamiltonians [0.8244545230770907]
暗黙的なハミルトニアンによる最適フィードバック制御は、学習に基づく値関数法に根本的な課題をもたらす。
最近のWorkcitegelphman2025endでは、Jacobian-Free Backpropagation (JFB)を使って暗黙のディープラーニングアプローチを導入している。
我々は、JFBの収束保証をミニバッチ設定で確立し、その結果の更新が期待される最適制御目標の定常点に収束することを示す。
論文 参考訳(メタデータ) (2026-01-31T22:25:46Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - Stochastic Control Methods for Optimization [0.0]
ユークリッド設定では、正規化制御問題の問題を解析する。
大域的な測度では、マスターフィールド問題によって特徴づけられる正規化された平均場問題を定式化する。
論文 参考訳(メタデータ) (2026-01-03T17:55:26Z) - Steering Large Agent Populations using Mean-Field Schrodinger Bridges with Gaussian Mixture Models [13.03355083378673]
Mean-Field Schrodinger Bridge (MFSB) 問題は、最小の作業制御ポリシーを見つけることを目的とした最適化問題である。
マルチエージェント制御の文脈において、目的は同一の相互作用する協調エージェントの群の構成を制御することである。
論文 参考訳(メタデータ) (2025-03-31T04:01:04Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。