論文の概要: Is RL fine-tuning harder than regression? A PDE learning approach for diffusion models
- arxiv url: http://arxiv.org/abs/2509.02528v1
- Date: Tue, 02 Sep 2025 17:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.12374
- Title: Is RL fine-tuning harder than regression? A PDE learning approach for diffusion models
- Title(参考訳): RL微調整は回帰よりも難しいか?拡散モデルに対するPDE学習アプローチ
- Authors: Wenlong Mou,
- Abstract要約: ハミルトン-ヤコビ-ベルマン方程式に基づく変分不等式問題を解くことによって,新しいアルゴリズムのクラスを開発する。
汎用的な強化学習問題とは対照的に,本手法は教師付き回帰による微調整が可能であることを示す。
- 参考スコア(独自算出の注目度): 1.3350982138577037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning the optimal control policy for fine-tuning a given diffusion process, using general value function approximation. We develop a new class of algorithms by solving a variational inequality problem based on the Hamilton-Jacobi-Bellman (HJB) equations. We prove sharp statistical rates for the learned value function and control policy, depending on the complexity and approximation errors of the function class. In contrast to generic reinforcement learning problems, our approach shows that fine-tuning can be achieved via supervised regression, with faster statistical rate guarantees.
- Abstract(参考訳): 一般化関数近似を用いて, 与えられた拡散過程を微調整する最適制御法を学習する問題について検討する。
ハミルトン・ヤコビ・ベルマン方程式(HJB)に基づく変分不等式問題を解くことで,新しいアルゴリズムのクラスを開発する。
我々は,関数クラスの複雑性や近似誤差に応じて,学習値関数と制御ポリシの統計率の急激な向上を証明した。
一般的な強化学習問題とは対照的に,より高速な統計率保証により,教師付き回帰によって微調整を実現できることを示す。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear-Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数(LQ)制御のクラスに対する強化学習(RL)について検討した。
モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,RLアルゴリズムを設計して,適切なポリシパラメータを直接学習する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Data-driven initialization of deep learning solvers for
Hamilton-Jacobi-Bellman PDEs [3.249853429482705]
状態依存型 Riccati 方程式制御法は、まず、教師付き学習のための勾配拡張合成データセットを生成するために用いられる。
得られたモデルは、HJB PDEの残量に基づく損失関数の最小化のためのウォームスタートとなる。
論文 参考訳(メタデータ) (2022-07-19T14:34:07Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。