Fugu-MT 論文翻訳(概要): Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport

論文の概要: Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport

arxiv url: http://arxiv.org/abs/2502.12631v1
Date: Tue, 18 Feb 2025 08:22:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.863687
Title: Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport
Title（参考訳）: 最適輸送による強化学習に適合するスコアベース拡散政策
Authors: Mingyang Sun, Pengxiang Ding, Weinan Zhang, Donglin Wang,
Abstract要約: 拡散政策は、デモから複雑な振る舞いを学ぶ際に有望であることを示している。本稿では,環境とのオンラインインタラクションによる拡散型模倣学習モデルの改善について検討する。最適輸送理論を用いた拡散ポリシをRLと統合する新しい手法OTPRを提案する。
参考スコア（独自算出の注目度）: 45.793758222754036
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion policies have shown promise in learning complex behaviors from demonstrations, particularly for tasks requiring precise control and long-term planning. However, they face challenges in robustness when encountering distribution shifts. This paper explores improving diffusion-based imitation learning models through online interactions with the environment. We propose OTPR (Optimal Transport-guided score-based diffusion Policy for Reinforcement learning fine-tuning), a novel method that integrates diffusion policies with RL using optimal transport theory. OTPR leverages the Q-function as a transport cost and views the policy as an optimal transport map, enabling efficient and stable fine-tuning. Moreover, we introduce masked optimal transport to guide state-action matching using expert keypoints and a compatibility-based resampling strategy to enhance training stability. Experiments on three simulation tasks demonstrate OTPR's superior performance and robustness compared to existing methods, especially in complex and sparse-reward environments. In sum, OTPR provides an effective framework for combining IL and RL, achieving versatile and reliable policy learning. The code will be released at https://github.com/Sunmmyy/OTPR.git.
Abstract（参考訳）: 拡散政策は、特に正確な制御と長期計画を必要とするタスクのために、デモから複雑な行動を学ぶことを約束している。しかし、分散シフトに遭遇する際の堅牢性の課題に直面している。本稿では,環境とのオンラインインタラクションによる拡散型模倣学習モデルの改善について検討する。最適輸送理論を用いてRLと拡散ポリシを統合する新しい手法であるOTPR(Optimal Transport-guided score-based diffusion Policy for Reinforcement Learning fine-tuning)を提案する。 OTPRはQ関数を輸送コストとして利用し、ポリシーを最適な輸送マップとみなし、効率的で安定した微調整を可能にする。さらに、エキスパートキーポイントを用いた状態対応マッチングを誘導するためのマスク付き最適輸送法と、トレーニング安定性を高めるための互換性に基づく再サンプリング戦略を導入する。 3つのシミュレーションタスクの実験は、特に複雑・スパース・リワード環境において、既存の手法と比較してOTPRの優れた性能と堅牢性を示す。要約すると、OTPRはILとRLを組み合わせるための効果的なフレームワークを提供し、汎用的で信頼性の高いポリシー学習を実現する。コードはhttps://github.com/Sunmmyy/OTPR.gitで公開される。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。本稿では,新しい伝達学習原理と理論的アルゴリズムを提案する。我々は、計算効率を向上したウィンレートベースの転送ポリシー選択戦略を開発する。
論文参考訳（メタデータ） (2025-02-26T16:03:06Z)
Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。 DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。 DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文参考訳（メタデータ） (2024-09-01T02:47:50Z)
Real-time system optimal traffic routing under uncertainties -- Can physics models boost reinforcement learning? [2.298129181817085]
本稿では,強化学習を物理モデルに統合し,性能,信頼性,解釈可能性を向上させるアルゴリズムであるTransRLを提案する。物理モデルからの情報を活用することで、TransRLは最先端の強化学習アルゴリズムより一貫して優れている。
論文参考訳（メタデータ） (2024-07-10T04:53:26Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文参考訳（メタデータ） (2023-12-18T23:31:01Z)
Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文参考訳（メタデータ） (2023-06-27T16:15:15Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)
Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文参考訳（メタデータ） (2020-12-24T14:18:56Z)
Reinforcement Learning to Optimize the Logistics Distribution Routes of Unmanned Aerial Vehicle [0.0]
本稿では,複数のノフライゾーンを含む複雑な環境下でUAVの経路計画を実現するための改良手法を提案する。その結果,このような複雑な状況に適応するモデルの有効性と効率性が示された。
論文参考訳（メタデータ） (2020-04-21T09:42:03Z)
Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文参考訳（メタデータ） (2020-02-19T07:30:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。