Fugu-MT 論文翻訳(概要): Efficient Online Reinforcement Learning for Diffusion Policy

論文の概要: Efficient Online Reinforcement Learning for Diffusion Policy

arxiv url: http://arxiv.org/abs/2502.00361v3
Date: Wed, 28 May 2025 06:35:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.055902
Title: Efficient Online Reinforcement Learning for Diffusion Policy
Title（参考訳）: 拡散政策のための効果的なオンライン強化学習
Authors: Haitong Ma, Tianyi Chen, Kai Wang, Na Li, Bo Dai,
Abstract要約: 損失関数を再重み付けすることで従来のデノナイジングスコアマッチングを一般化する。結果のReweighted Score Matching (RSM) は最適解と低い計算コストを保存する。 DPMD(Diffusion Policy Mirror Descent)とSDAC(Soft Diffusion Actor-Critic)という2つの実用的なアルゴリズムを導入する。
参考スコア（独自算出の注目度）: 38.39095131927252
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion policies have achieved superior performance in imitation learning and offline reinforcement learning (RL) due to their rich expressiveness. However, the conventional diffusion training procedure requires samples from target distribution, which is impossible in online RL since we cannot sample from the optimal policy. Backpropagating policy gradient through the diffusion process incurs huge computational costs and instability, thus being expensive and not scalable. To enable efficient training of diffusion policies in online RL, we generalize the conventional denoising score matching by reweighting the loss function. The resulting Reweighted Score Matching (RSM) preserves the optimal solution and low computational cost of denoising score matching, while eliminating the need to sample from the target distribution and allowing learning to optimize value functions. We introduce two tractable reweighted loss functions to solve two commonly used policy optimization problems, policy mirror descent and max-entropy policy, resulting in two practical algorithms named Diffusion Policy Mirror Descent (DPMD) and Soft Diffusion Actor-Critic (SDAC). We conducted comprehensive comparisons on MuJoCo benchmarks. The empirical results show that the proposed algorithms outperform recent diffusion-policy online RLs on most tasks, and the DPMD improves more than 120% over soft actor-critic on Humanoid and Ant.
Abstract（参考訳）: 拡散ポリシは、その豊かな表現力により、模倣学習やオフライン強化学習(RL)において優れたパフォーマンスを実現している。しかし,従来の拡散訓練では,最適方針からサンプルを採取できないため,オンラインRLでは不可能なターゲット分布からのサンプルが必要である。拡散プロセスを通じて政策勾配をバックプロパゲートすることは、膨大な計算コストと不安定を発生させるため、高価であり、スケーラブルではない。オンラインRLにおける拡散ポリシーの効率的なトレーニングを可能にするため、損失関数を再重み付けすることで従来の復調スコアマッチングを一般化する。結果として得られたReweighted Score Matching (RSM) は、目標分布からのサンプリングを排除し、学習者が値関数を最適化できるようにすると同時に、スコアマッチングを識別する最適な解と低い計算コストを保っている。本稿では,2つのトラクタブル再重み付き損失関数を導入し,2つのポリシ最適化問題,ポリシミラー降下と最大エントロピーポリシを解き,結果としてDiffusion Policy Mirror Descent (DPMD) とSoft Diffusion Actor-Critic (SDAC) という2つの実用的なアルゴリズムを導出した。 MuJoCoベンチマークの総合的な比較を行った。実験の結果,提案アルゴリズムは近年のオンラインRLよりも多くのタスクにおいて優れており,DPMDはヒューマノイドやアントのソフトアクターよりも120%以上向上していることがわかった。

関連論文リスト

One-Step Flow Policy Mirror Descent [38.39095131927252]
Flow Policy Mirror Descent (FPMD)は、ポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文参考訳（メタデータ） (2025-07-31T15:51:10Z)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文参考訳（メタデータ） (2024-12-09T17:28:03Z)
CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文参考訳（メタデータ） (2024-06-11T17:59:29Z)
Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。 DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。 DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文参考訳（メタデータ） (2024-05-30T05:04:33Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。 MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文参考訳（メタデータ） (2024-05-24T03:23:27Z)
Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文参考訳（メタデータ） (2023-10-11T08:31:26Z)
Policy Representation via Diffusion Probability Model for Reinforcement Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文参考訳（メタデータ） (2023-05-22T15:23:41Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文参考訳（メタデータ） (2020-02-28T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。