論文の概要: Data augmentation for efficient learning from parametric experts
- arxiv url: http://arxiv.org/abs/2205.11448v1
- Date: Mon, 23 May 2022 16:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 21:46:24.426743
- Title: Data augmentation for efficient learning from parametric experts
- Title(参考訳): パラメトリックエキスパートによる効率的な学習のためのデータ拡張
- Authors: Alexandre Galashov, Josh Merel, Nicolas Heess
- Abstract要約: 我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
- 参考スコア(独自算出の注目度): 88.33380893179697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a simple, yet powerful data-augmentation technique to enable
data-efficient learning from parametric experts for reinforcement and imitation
learning. We focus on what we call the policy cloning setting, in which we use
online or offline queries of an expert or expert policy to inform the behavior
of a student policy. This setting arises naturally in a number of problems, for
instance as variants of behavior cloning, or as a component of other algorithms
such as DAGGER, policy distillation or KL-regularized RL. Our approach,
augmented policy cloning (APC), uses synthetic states to induce
feedback-sensitivity in a region around sampled trajectories, thus dramatically
reducing the environment interactions required for successful cloning of the
expert. We achieve highly data-efficient transfer of behavior from an expert to
a student policy for high-degrees-of-freedom control problems. We demonstrate
the benefit of our method in the context of several existing and widely used
algorithms that include policy cloning as a constituent part. Moreover, we
highlight the benefits of our approach in two practically relevant settings (a)
expert compression, i.e. transfer to a student with fewer parameters; and (b)
transfer from privileged experts, i.e. where the expert has a different
observation space than the student, usually including access to privileged
information.
- Abstract(参考訳): パラメトリックな専門家からデータ効率を向上し、強化と模倣学習を実現するための、シンプルで強力なデータ拡張手法を提案する。
我々は、学生政策の行動を伝えるために、専門家または専門家政策のオンラインまたはオフラインクエリを使用する政策クローニング設定と呼ばれるものに焦点を当てる。
この設定は、例えば行動クローニングの変種や、ダガー、ポリシー蒸留、kl正規化rlなどの他のアルゴリズムの構成要素として、多くの問題において自然に発生する。
提案手法は,APC(Adgressment Policy cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導し,専門家のクローン成功に必要な環境相互作用を劇的に低減する。
高度な自由度制御問題に対する専門家から学生への行動伝達を高度にデータ効率良く達成する。
本稿では,本手法の利点を,ポリシクローニングを構成要素として含む既存かつ広く利用されているアルゴリズムの文脈で示す。
さらに、我々はアプローチの利点を2つの現実的に関連する設定で強調する。
(a)専門家圧縮、すなわち、少ないパラメータを持つ学生に転送すること、及び
(b)特権者、すなわち、専門家が生徒と異なる観察空間を有し、通常は特権情報へのアクセスを含む。
関連論文リスト
- SAFE-GIL: SAFEty Guided Imitation Learning [7.979892202477701]
行動クローニングは、ロボットが専門家の監督を観察し、制御ポリシーを学ぶという、模倣学習の一般的なアプローチである。
しかし、行動のクローンは、専門家のデモンストレーションから逸脱し、破滅的なシステム障害につながる可能性があるため、ポリシーのエラーが複雑になる"複合的エラー"問題に悩まされる。
本稿では,データ収集の際,専門家を敵対的障害から誘導する非政治行動クローニング手法であるSAFE-GILを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:25:25Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。