Fugu-MT 論文翻訳(概要): Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow

論文の概要: Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow

arxiv url: http://arxiv.org/abs/2605.07727v1
Date: Fri, 08 May 2026 13:34:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.073198
Title: Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow
Title（参考訳）: ドリフトフィールドポリシ: Wasserstein Gradient Flowによるワンステップ生成ポリシ
Authors: Juil Koo, Mingue Park, Jiwon Choi, Yunhong Min, Minhyuk Sung,
Abstract要約: ドリフトフィールドポリシー(DFP)は、ドリフトモデルパラダイムに基づく一段階の生成ポリシーである。我々は、このポリシー更新を、ソフトターゲットポリシーに向けた逆KL Wasserstein-2勾配流として構成し、各DFP更新が確率空間の勾配ステップに対応するようにした。我々は、トップKの批評家が選択した行動における行動のクローンのような、さほど難解でない更新損失の、単純でトラクタブルなサロゲートを導出する。
参考スコア（独自算出の注目度）: 24.52437280908291
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Drifting Field Policy (DFP), a non-ODE one-step generative policy built on the drifting model paradigm. We frame the policy update as a reverse-KL Wasserstein-2 gradient flow toward a soft target policy, so that each DFP update corresponds to a gradient step in probability space. By construction, this gradient is decomposed into an ascent toward higher action-value regions and a score matching with the anchor policy as a trust region. We further derive a simple, tractable surrogate of the otherwise intractable update loss, akin to behavior cloning on top-K critic-selected actions. We find empirically that this mechanism uniquely benefits the drifting backbone owing to its non-ODE parameterization. With one-step inference, DFP achieves state-of-the-art performance on several manipulation tasks across Robomimic and OGBench, outperforming ODE-based policies.
Abstract（参考訳）: 本研究では、ドリフトモデルパラダイムに基づく非ODEワンステップ生成ポリシーであるドリフトフィールドポリシー(DFP)を提案する。我々は、このポリシー更新を、ソフトターゲットポリシーに向けた逆KL Wasserstein-2勾配流として構成し、各DFP更新が確率空間の勾配ステップに対応するようにした。構成により、この勾配はより高い作用値領域への上昇と、信頼領域としてのアンカーポリシーに一致するスコアに分解される。さらに、トップKの批評家が選択した行動における行動のクローンのような、難解な更新損失の、シンプルで、引きずりやすいサロゲートを導出します。我々はこのメカニズムが非ODEパラメータ化によりドリフトバックボーンに一意に効果があることを実証的に見出した。 1ステップの推論で、DFPはRoomimicとOGBenchをまたいだ操作タスクにおける最先端のパフォーマンスを達成し、ODEベースのポリシーよりも優れています。

関連論文リスト

OGPO: Sample Efficient Full-Finetuning of Generative Control Policies [53.42266064673132]
ジェネレーティブコントロールポリシー(GCP)は、ロボット学習に有効なパラメータ化として登場した。この研究は、GCPを微調整するためのサンプル効率であるOGPO(Off-policy Generative Policy Optimization)を導入している。 OGPOはマルチタスク設定、高精度挿入、デクスタラス制御にまたがる操作タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-05-04T18:36:40Z)
Wasserstein Proximal Policy Gradient [10.574676421687718]
We study policy gradient method for continuous-action, entropy-regularized learning through the lens of Wasserstein geometry。我々はWPPGによって実装されたヒートステップと最適なトランスポート更新を交互に行う演算子分割方式によりWWPG(Wsserstein Proximal Policy Gradient)を導出する。我々はWPPGの線形収束率を確立し、正確なポリシー評価と制御された近似誤差によるアクター・クリティカルな実装の両方をカバーした。
論文参考訳（メタデータ） (2026-03-03T03:48:09Z)
Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文参考訳（メタデータ） (2025-10-06T01:56:31Z)
Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Wasserstein Policy Optimization [15.269409777313662]
Wasserstein Policy Optimization (WPO) は連続的な行動空間における強化学習のためのアクタークリティカルなアルゴリズムである。本稿では、DeepMind Control Suiteと、最先端の連続制御法と好適に比較した磁気閉じ込めタスクについて述べる。
論文参考訳（メタデータ） (2025-05-01T17:07:01Z)
Learn Your Reference Model for Real Good Alignment [3.091688550418396]
大規模言語モデル(LLM)アライメントのためのオフラインメソッドは、過度な最適化の影響を受けやすい。我々は、トレーニングプロセスを通して参照ポリシーを動的に更新する、Trust Regionと呼ばれるオフラインアライメント手法の新たなパラダイムを提案する。この結果から,TRアライメント手法は過度な最適化を効果的に軽減し,初期基準ポリシからかなり逸脱したモデルでも高い性能を維持することができることがわかった。
論文参考訳（メタデータ） (2024-04-15T10:44:31Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Policy Gradient in Robust MDPs with Global Convergence Guarantee [13.40471012593073]
Robust Markov決定プロセス(RMDP)は、モデルエラーに直面した信頼性の高いポリシーを計算するための有望なフレームワークを提供する。本稿では、RMDPの汎用的ポリシー勾配法であるDRPG(Double-Loop Robust Policy Gradient)を提案する。従来のロバストなポリシー勾配アルゴリズムとは対照的に、DRPGはグローバルな最適ポリシーへの収束を保証するために近似誤差を単調に削減する。
論文参考訳（メタデータ） (2022-12-20T17:14:14Z)
Truly Deterministic Policy Optimization [3.07015565161719]
本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
論文参考訳（メタデータ） (2022-05-30T18:49:33Z)
Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文参考訳（メタデータ） (2020-02-10T18:41:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。