論文の概要: Diffusion Self-Weighted Guidance for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.18345v1
- Date: Fri, 23 May 2025 20:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.35507
- Title: Diffusion Self-Weighted Guidance for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための拡散自己重み付き指導
- Authors: Augusto Tagle, Javier Ruiz-del-Solar, Felipe Tobar,
- Abstract要約: オフライン強化学習(RL)は、エージェントの歴史的観察を考慮すれば、最適なポリシーを$pi$で回復する。
実際には、$pi$はエージェントの振舞いポリシーの重み付けバージョンとしてモデル化され、エージェントの振舞いに対する批判として働く重み関数$w$を使用する。
D4RLの挑戦的環境における現状と同等の手法を用いて, 玩具のサンプルから自己重み付けガイダンス(SWG)が, 所望の分布からサンプルを生成することを示す。
- 参考スコア(独自算出の注目度): 1.7614751781649955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) recovers the optimal policy $\pi$ given historical observations of an agent. In practice, $\pi$ is modeled as a weighted version of the agent's behavior policy $\mu$, using a weight function $w$ working as a critic of the agent's behavior. Though recent approaches to offline RL based on diffusion models have exhibited promising results, the computation of the required scores is challenging due to their dependence on the unknown $w$. In this work, we alleviate this issue by constructing a diffusion over both the actions and the weights. With the proposed setting, the required scores are directly obtained from the diffusion model without learning extra networks. Our main conceptual contribution is a novel guidance method, where guidance (which is a function of $w$) comes from the same diffusion model, therefore, our proposal is termed Self-Weighted Guidance (SWG). We show that SWG generates samples from the desired distribution on toy examples and performs on par with state-of-the-art methods on D4RL's challenging environments, while maintaining a streamlined training pipeline. We further validate SWG through ablation studies on weight formulations and scalability.
- Abstract(参考訳): オフライン強化学習(RL)は、エージェントの歴史的観測から最適なポリシーを$\pi$で回復する。
実際には、$\pi$はエージェントの行動ポリシーの重み付けバージョンとしてモデル化され、エージェントの行動に対する批判として働く重み関数$w$を使用する。
拡散モデルに基づくオフラインRLへの最近のアプローチは有望な結果を示しているが、未知の$w$に依存するため、必要なスコアの計算は困難である。
本研究は, 作用と重みの双方を拡散させることにより, この問題を緩和するものである。
提案した設定により、必要なスコアは、余分なネットワークを学習することなく、拡散モデルから直接得られる。
本研究の主な概念的貢献は、誘導法($w$の関数)が同じ拡散モデルから得られる新しい誘導法であり、この提案を自己重み付き誘導(SWG)と呼ぶ。
SWG はおもちゃの例から所望の分布からサンプルを生成し,D4RL の挑戦的な環境における最先端の手法と同等に動作し,訓練パイプラインの合理化を図っている。
さらに、重量の定式化と拡張性に関するアブレーション研究を通じてSWGを検証する。
関連論文リスト
- Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DiffCPS: Diffusion Model based Constrained Policy Search for Offline
Reinforcement Learning [11.678012836760967]
制約付きポリシー探索はオフライン強化学習の基本的な問題である。
我々は新しいアプローチとして$textbfDiffusion-based Constrained Policy Search$(dubed DiffCPS)を提案する。
論文 参考訳(メタデータ) (2023-10-09T01:29:17Z) - Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-14T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。