論文の概要: CoDE: Collocation for Demonstration Encoding
- arxiv url: http://arxiv.org/abs/2105.03019v1
- Date: Fri, 7 May 2021 00:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:09:19.742399
- Title: CoDE: Collocation for Demonstration Encoding
- Title(参考訳): CoDE: デモエンコーディングのためのコロケーション
- Authors: Mandy Xie, Anqi Li, Karl Van Wyk, Frank Dellaert, Byron Boots, Nathan
Ratliff
- Abstract要約: デモのためのコロケーション(Collocation for Demonstration)と呼ばれるデータ効率のよい模倣学習手法を提案する。
最適制御におけるコロケーション技術からインスピレーションを得た補助軌道軌道を導入することにより、時間的問題による問題的バックプロパゲーションを回避する。
テーブルトップ操作を効率的に行うための7自由度ロボットマニピュレータ学習行動形成政策の実験について述べる。
- 参考スコア(独自算出の注目度): 31.220899638271856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Roboticists frequently turn to Imitation learning (IL) for data efficient
policy learning. Many IL methods, canonicalized by the seminal work on Dataset
Aggregation (DAgger), combat distributional shift issues with older Behavior
Cloning (BC) methods by introducing oracle experts. Unfortunately, access to
oracle experts is often unrealistic in practice; data frequently comes from
manual offline methods such as lead-through or teleoperation. We present a
data-efficient imitation learning technique called Collocation for
Demonstration Encoding (CoDE) that operates on only a fixed set of trajectory
demonstrations by modeling learning as empirical risk minimization. We
circumvent problematic back-propagation through time problems by introducing an
auxiliary trajectory network taking inspiration from collocation techniques in
optimal control. Our method generalizes well and is much more data efficient
than standard BC methods. We present experiments on a 7-degree-of-freedom (DoF)
robotic manipulator learning behavior shaping policies for efficient tabletop
operation.
- Abstract(参考訳): ロボット工学者は、データ効率的なポリシー学習のために、しばしば模倣学習(il)に目を向ける。
データセットアグリゲーション(dagger)に関する独創的な研究によって正統化された多くのilメソッドは、oracleの専門家を紹介することで、古いビヘイビアクローン(bc)メソッドによる分散シフト問題と戦う。
残念ながら、oracleの専門家へのアクセスはしばしば非現実的であり、データはリードスルーや遠隔操作のような手動のオフラインメソッドから来ることが多い。
本稿では,実験的リスク最小化として学習をモデル化することにより,軌道デモの固定セットのみで動作するcolocation for demonstration encoding (code)と呼ばれるデータ効率の高い模倣学習手法を提案する。
最適制御におけるコロケーション技術から着想を得た補助軌道網を導入することにより,時間的問題による問題点を回避した。
我々の手法は、標準的なBC法よりもはるかにデータ効率が高い。
本研究では,効率的なテーブルトップ操作のための7自由度ロボットマニピュレータ学習法について実験を行った。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - Mitigating Covariate Shift in Imitation Learning via Offline Data
Without Great Coverage [27.122391441921664]
本稿では、エージェントがオンライン環境の相互作用を伴わずに専門家の実証者を模倣することを学習するオフラインImitation Learning(IL)について研究する。
その代わり、学習者は、潜在的に未熟な行動ポリシーから状態-動作-次の状態遷移の静的なオフラインデータセットを提示される。
オフラインデータ(MILO)からモデルベースのILを導入し,理論上も現実的にも,オフラインのIL問題を効率的に解決する。
論文 参考訳(メタデータ) (2021-06-06T18:31:08Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。