論文の概要: Goal-Conditioned Imitation Learning using Score-based Diffusion Policies
- arxiv url: http://arxiv.org/abs/2304.02532v2
- Date: Thu, 1 Jun 2023 15:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 23:57:16.835753
- Title: Goal-Conditioned Imitation Learning using Score-based Diffusion Policies
- Title(参考訳): スコアベース拡散ポリシーを用いた目標条件付き模倣学習
- Authors: Moritz Reuss, Maximilian Li, Xiaogang Jia, Rudolf Lioutikov
- Abstract要約: スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。
直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
- 参考スコア(独自算出の注目度): 3.49482137286472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new policy representation based on score-based diffusion models
(SDMs). We apply our new policy representation in the domain of
Goal-Conditioned Imitation Learning (GCIL) to learn general-purpose
goal-specified policies from large uncurated datasets without rewards. Our new
goal-conditioned policy architecture "$\textbf{BE}$havior generation with
$\textbf{S}$c$\textbf{O}$re-based Diffusion Policies" (BESO) leverages a
generative, score-based diffusion model as its policy. BESO decouples the
learning of the score model from the inference sampling process, and, hence
allows for fast sampling strategies to generate goal-specified behavior in just
3 denoising steps, compared to 30+ steps of other diffusion based policies.
Furthermore, BESO is highly expressive and can effectively capture
multi-modality present in the solution space of the play data. Unlike previous
methods such as Latent Plans or C-Bet, BESO does not rely on complex
hierarchical policies or additional clustering for effective goal-conditioned
behavior learning. Finally, we show how BESO can even be used to learn a
goal-independent policy from play-data using classifier-free guidance. To the
best of our knowledge this is the first work that a) represents a behavior
policy based on such a decoupled SDM b) learns an SDM based policy in the
domain of GCIL and c) provides a way to simultaneously learn a goal-dependent
and a goal-independent policy from play-data. We evaluate BESO through detailed
simulation and show that it consistently outperforms several state-of-the-art
goal-conditioned imitation learning methods on challenging benchmarks. We
additionally provide extensive ablation studies and experiments to demonstrate
the effectiveness of our method for goal-conditioned behavior generation.
Demonstrations and Code are available at
https://intuitive-robots.github.io/beso-website/
- Abstract(参考訳): 本稿では,スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々は、ゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しいポリシー表現を適用し、報酬のない大規模未計算データセットから汎用目標特定ポリシーを学習する。
我々の新しいゴール条件付きポリシーアーキテクチャ "$\textbf{BE}$havior generation with $\textbf{S}$c$\textbf{O}$re-based Diffusion Policies" (BESO) は、生成的なスコアベースの拡散モデルをポリシーとして活用する。
BESOは、スコアモデルの学習を推論サンプリングプロセスから切り離し、その結果、他の拡散ベースのポリシーの30以上のステップと比較して、わずか3ステップでゴール特定行動を生成する高速サンプリング戦略を可能にする。
また、besoは表現力が高く、プレイデータの解空間に存在するマルチモダリティを効果的に捉えることができる。
latent planやc-betのような従来の方法とは異なり、besoは効果的な目標条件付き行動学習のために複雑な階層ポリシーや追加のクラスタリングに依存しない。
最後に, BESO を用いてプレイデータからゴールに依存しないポリシーを学習する方法を示す。
私たちの知る限りでは これが最初の作品です
a)そのような分離されたsdmに基づく行動方針を表す
b)GCILの領域でSDMに基づく政策を学習し、
c) プレイデータからゴール依存とゴール非依存のポリシーを同時に学習する方法を提供する。
詳細なシミュレーションによりbesoを評価し,課題ベンチマークにおいて,最先端の目標条件付き模倣学習手法を一貫して上回っていることを示す。
また,目標条件付き行動生成法の有効性を示すため,広範囲なアブレーション研究と実験を行った。
デモとコードはhttps://intuitive-robots.github.io/beso-website/で入手できる。
関連論文リスト
- Probabilistic Subgoal Representations for Hierarchical Reinforcement learning [16.756888009396462]
目標条件付き階層的強化学習において、ハイレベルポリシーは、低レベルポリシーが到達するためのサブゴールを指定する。
既存の方法では、状態空間から潜在サブゴール空間への決定論的マッピングを提供するサブゴール表現を採用している。
本稿では,潜在サブゴアル空間に先行するGPを用いて,サブゴアル表現関数上の後部分布を学習する。
論文 参考訳(メタデータ) (2024-06-24T15:09:22Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Don't Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion [16.44141792109178]
拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。
論文 参考訳(メタデータ) (2024-02-25T12:19:21Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Language-Conditioned Semantic Search-Based Policy for Robotic
Manipulation Tasks [2.1332830068386217]
言語条件のセマンティックサーチに基づくオンラインサーチベースのポリシーを作成する手法を提案する。
提案手法は,CALVINベンチマークのベースライン性能を超越し,ゼロショット適応性能が向上する。
論文 参考訳(メタデータ) (2023-12-10T16:17:00Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation [45.312333134810665]
数発の模倣に取り組む最先端の手法はメタラーニングに依存している。
近年の研究では、ファインチューナーは画像分類タスクにおいてメタラーナーよりも優れていることが示されている。
人気の高いOpenAI-Gym MuJoCo環境の154種類からなるiMuJoCoと呼ばれるオープンソースデータセットをリリースする。
論文 参考訳(メタデータ) (2023-06-23T15:29:15Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。