論文の概要: Behavioral Refinement via Interpolant-based Policy Diffusion
- arxiv url: http://arxiv.org/abs/2402.16075v1
- Date: Sun, 25 Feb 2024 12:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:21:14.882068
- Title: Behavioral Refinement via Interpolant-based Policy Diffusion
- Title(参考訳): インターポーラント型政策拡散による行動抑制
- Authors: Kaiqi Chen, Eugene Lim, Kelvin Lin, Yiyang Chen and Harold Soh
- Abstract要約: 拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
我々の手法はBRIDGERと呼ばれ、補間フレームワークを利用して任意のポリシーをブリッジし、模倣学習への柔軟なアプローチを可能にする。
- 参考スコア(独自算出の注目度): 17.63910869653275
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Imitation learning empowers artificial agents to mimic behavior by learning
from demonstrations. Recently, diffusion models, which have the ability to
model high-dimensional and multimodal distributions, have shown impressive
performance on imitation learning tasks. These models learn to shape a policy
by diffusing actions (or states) from standard Gaussian noise. However, the
target policy to be learned is often significantly different from Gaussian and
this mismatch can result in poor performance when using a small number of
diffusion steps (to improve inference speed) and under limited data. The key
idea in this work is that initiating from a more informative source than
Gaussian enables diffusion methods to overcome the above limitations. We
contribute both theoretical results, a new method, and empirical findings that
show the benefits of using an informative source policy. Our method, which we
call BRIDGER, leverages the stochastic interpolants framework to bridge
arbitrary policies, thus enabling a flexible approach towards imitation
learning. It generalizes prior work in that standard Gaussians can still be
applied, but other source policies can be used if available. In experiments on
challenging benchmarks, BRIDGER outperforms state-of-the-art diffusion policies
and we provide further analysis on design considerations when applying BRIDGER.
- Abstract(参考訳): 模倣学習は、デモから学習することで行動の模倣を人工エージェントに与える。
近年,高次元およびマルチモーダル分布をモデル化できる拡散モデルは,模倣学習タスクにおいて印象的な性能を示している。
これらのモデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学ぶ。
しかし、学習対象のポリシーはガウシアンと大きく異なり、このミスマッチは(推論速度を改善するために)少数の拡散ステップを使用する場合や、限られたデータの下では性能が低下する可能性がある。
この研究の鍵となる考え方は、ガウス的よりも情報的な情報源から始めることで、拡散法が上記の制限を克服できるということである。
提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。
本手法は, 確率的補間フレームワークを用いて任意の方針を橋渡しし, 模倣学習への柔軟なアプローチを可能にする。
これは、標準ガウスがまだ適用可能であるという事前の作業を一般化するが、他のソースポリシーが利用可能であれば利用できる。
試行錯誤試験において,BRIDGERは最先端の拡散ポリシーより優れており,BRIDGERを適用する際の設計上の考慮事項についてさらなる分析を行う。
関連論文リスト
- Latent Weight Diffusion: Generating Policies from Trajectories [13.404962654299041]
遅延重み拡散(英語: Latent Weight Diffusion、LWD)は、拡散を利用して、軌道よりもむしろロボットタスクのポリシーに関する分布を学習する手法である。
LWDは、バニラマルチタスクポリシーよりも高い成功率を達成する一方で、推論時に最大18倍のモデルを使用する。
論文 参考訳(メタデータ) (2024-10-17T21:30:29Z) - Equivariant Diffusion Policy [16.52810213171303]
そこで本研究では,ドメイン対称性を利用した新しい拡散政策学習手法を提案し,より優れたサンプル効率とデノナイジング関数の一般化を実現する。
提案手法は,MimicGenにおける12のシミュレーションタスクに対して実証的に評価し,ベースライン拡散政策よりも平均21.9%高い成功率が得られることを示す。
論文 参考訳(メタデータ) (2024-07-01T21:23:26Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。