論文の概要: Efficient Reinforcement Learning from Demonstration Using Local Ensemble
and Reparameterization with Split and Merge of Expert Policies
- arxiv url: http://arxiv.org/abs/2205.11019v1
- Date: Mon, 23 May 2022 03:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 16:01:58.648646
- Title: Efficient Reinforcement Learning from Demonstration Using Local Ensemble
and Reparameterization with Split and Merge of Expert Policies
- Title(参考訳): スプリットとマージによる局所アンサンブルと再パラメータ化を用いた実演からの効率的な強化学習
- Authors: Yu Wang, Fang Liu
- Abstract要約: 準最適デモから学んだ政策は、不正または非ローカルな行動決定をしたエージェントを誤解させる可能性がある。
そこで本稿では,LEARN-SAM (Local Ensemble and Re parameterization with Split and Merge of Expert Policy) という手法を提案する。
低次元から高次元の複雑な連続制御問題に対する6つの実験において、LEARN-SAM法の優位性と、その頑健さを実証的品質と疎性で示す。
- 参考スコア(独自算出の注目度): 7.126594773940676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The current work on reinforcement learning (RL) from demonstrations often
assumes the demonstrations are samples from an optimal policy, an unrealistic
assumption in practice. When demonstrations are generated by sub-optimal
policies or have sparse state-action pairs, policy learned from sub-optimal
demonstrations may mislead an agent with incorrect or non-local action
decisions. We propose a new method called Local Ensemble and Reparameterization
with Split and Merge of expert policies (LEARN-SAM) to improve efficiency and
make better use of the sub-optimal demonstrations. First, LEARN-SAM employs a
new concept, the lambda-function, based on a discrepancy measure between the
current state to demonstrated states to "localize" the weights of the expert
policies during learning. Second, LEARN-SAM employs a split-and-merge (SAM)
mechanism by separating the helpful parts in each expert demonstration and
regrouping them into new expert policies to use the demonstrations selectively.
Both the lambda-function and SAM mechanism help boost the learning speed.
Theoretically, we prove the invariant property of reparameterized policy before
and after the SAM mechanism, providing theoretical guarantees for the
convergence of the employed policy gradient method. We demonstrate the
superiority of the LEARN-SAM method and its robustness with varying
demonstration quality and sparsity in six experiments on complex continuous
control problems of low to high dimensions, compared to existing methods on RL
from demonstration.
- Abstract(参考訳): 実演による強化学習(rl)に関する現在の研究は、実演が最適な政策、実際には非現実的な仮定からのサンプルであるとしばしば仮定している。
デモが準最適政策によって生成される場合や、スパースな状態-作用ペアを持つ場合、準最適実証から学んだポリシーは、不正または非局所的な行動決定を伴うエージェントを誤解させる可能性がある。
本稿では,専門家政策(learn-sam)の分割とマージによる局所的アンサンブルと再パラメータ化という新しい手法を提案する。
まず、LEARN-SAMは、学習中の専門家ポリシーの重みを「局所化」する状態を示すために、現在の状態間の不一致尺度に基づいて、新しい概念であるラムダ関数を採用する。
第2に、LEARN-SAMは、各専門家のデモで有用な部分を分離し、それらを新しい専門家のポリシーにまとめて、デモを選択的に使用することで、SAM( split-and-merge)メカニズムを採用している。
ラムダ関数とSAMメカニズムの両方が学習速度の向上に役立つ。
理論的には、SAM機構の前後のパラメータ化ポリシの不変性を証明し、採用したポリシー勾配法の収束に関する理論的保証を提供する。
低次元から高次元の複雑な連続制御問題に対する6つの実験において, 実演からのrl法と比較して, 学習-sam法の優劣と, 実演の質, 頑健性を実証した。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Dr.ICL: Demonstration-Retrieved In-context Learning [29.142262267850704]
インコンテキスト学習(ICL)は、LLMを使用するための強力なパラダイムとして、数発のデモでタスクを実行するために大きな言語モデルを教える。
最近の研究では、利用可能なデモのプールからの入力に対して意味論的に類似したデモを取得することで、より良いパフォーマンスが得られることが示唆されている。
この研究は、BM25のような単純な単語オーバーラップ類似度対策でさえ、ランダムに選択された実演よりも優れていることを示すことで、検索ベースのICLアプローチの適用性を拡大する。
論文 参考訳(メタデータ) (2023-05-23T14:55:25Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - DEFENDER: DTW-Based Episode Filtering Using Demonstrations for Enhancing
RL Safety [0.0]
本稿では,学習中のRLエージェントの安全性を向上させるために,安全で安全性の低いデモセットを活用するタスク非依存手法を提案する。
提案手法はOpenAI GymのMujocoベンチマークと2つの最先端RLアルゴリズムから評価する。
論文 参考訳(メタデータ) (2023-05-08T14:23:27Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文 参考訳(メタデータ) (2022-10-26T02:28:32Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。