論文の概要: Zero-Shot Transfer in Imitation Learning
- arxiv url: http://arxiv.org/abs/2310.06710v1
- Date: Tue, 10 Oct 2023 15:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:45:53.326810
- Title: Zero-Shot Transfer in Imitation Learning
- Title(参考訳): 模倣学習におけるゼロショット転送
- Authors: Alvaro Cauderan, Gauthier Boeshertz, Florian Schwarb, Calvin Zhang
- Abstract要約: 本稿では,専門家の行動を模倣して学習し,未確認領域に再学習せずに移行するアルゴリズムを提案する。
このようなアルゴリズムは,1)報酬関数の設計が困難であること,2)あるドメインから学んだ方針を他のドメインに展開することが困難であること,3)セキュリティ上の懸念から,現実の世界で直接学習することは高価か不可能であること,などの理由から,ロボット学習などの現実的応用において極めて重要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an algorithm that learns to imitate expert behavior and can
transfer to previously unseen domains without retraining. Such an algorithm is
extremely relevant in real-world applications such as robotic learning because
1) reward functions are difficult to design, 2) learned policies from one
domain are difficult to deploy in another domain and 3) learning directly in
the real world is either expensive or unfeasible due to security concerns. To
overcome these constraints, we combine recent advances in Deep RL by using an
AnnealedVAE to learn a disentangled state representation and imitate an expert
by learning a single Q-function which avoids adversarial training. We
demonstrate the effectiveness of our method in 3 environments ranging in
difficulty and the type of transfer knowledge required.
- Abstract(参考訳): 本稿では,専門家の行動の模倣を学習し,再訓練することなく,未発見の領域に移行できるアルゴリズムを提案する。
このようなアルゴリズムは、ロボット学習のような現実世界のアプリケーションと非常に関係がある。
1)報酬機能は設計が困難である。
2) あるドメインから学んだ方針を別のドメインに展開することは困難である。
3) セキュリティ上の懸念から,現実世界で直接学習することは高価か,あるいは実現不可能である。
このような制約を克服するために、AnnealedVAEを用いて非交叉状態表現を学習し、敵の訓練を避ける単一のQ-関数を学習して専門家を模倣することにより、Deep RLの最近の進歩を組み合わせる。
本手法の有効性を,難易度,要求される伝達知識の種類の3つの環境において実証する。
関連論文リスト
- Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。
本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-08T07:31:10Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Two-Step Offline Preference-Based Reinforcement Learning with Constrained Actions [38.48223545539604]
PRCと呼ばれる新しい2段階学習手法を開発した。
我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。
論文 参考訳(メタデータ) (2023-12-30T21:37:18Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learn what matters: cross-domain imitation learning with task-relevant
embeddings [77.34726150561087]
自律エージェントが、異なる環境や異なるエージェントなど、異なる領域のデモンストレーションからタスクを実行することを学習する方法について検討する。
我々は、追加のデモンストレーションやさらなるドメイン知識にアクセスすることなく、クロスドメインの模倣学習を可能にするスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T21:56:58Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a
Survey [0.07366405857677225]
深層強化学習におけるsim-to-realトランスファーの背景について述べる。
本稿では,ドメインランダム化,ドメイン適応,模倣学習,メタラーニング,知識蒸留の3つの主要な手法について概説する。
論文 参考訳(メタデータ) (2020-09-24T21:05:46Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - Multiplicative Controller Fusion: Leveraging Algorithmic Priors for
Sample-efficient Reinforcement Learning and Safe Sim-To-Real Transfer [18.50206483493784]
本稿では,既存の準最適解を活用可能なモデルフリー強化学習手法を提案する。
訓練中は, ゲート融合法により, 先行者が探査の初期段階を案内できる。
本稿では,ロボットナビゲーションにおけるマルチプリケーティブ・コントローラ・フュージョン・アプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-03-11T05:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。