論文の概要: Cross Domain Robot Imitation with Invariant Representation
- arxiv url: http://arxiv.org/abs/2109.05940v1
- Date: Mon, 13 Sep 2021 13:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:11:51.102007
- Title: Cross Domain Robot Imitation with Invariant Representation
- Title(参考訳): 不変表現を用いたクロスドメインロボット模倣
- Authors: Zhao-Heng Yin, Lingfeng Sun, Hengbo Ma, Masayoshi Tomizuka, Wu-Jun Li
- Abstract要約: クロスドメイン模倣学習(CDIL)はロボット工学における課題である。
不変表現に基づく模倣学習アルゴリズムを提案する。
本手法は,類似した動作の異なるロボットに対して,類似した表現を学習できることを示す。
- 参考スコア(独自算出の注目度): 32.1735585546968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animals are able to imitate each others' behavior, despite their difference
in biomechanics. In contrast, imitating the other similar robots is a much more
challenging task in robotics. This problem is called cross domain imitation
learning~(CDIL). In this paper, we consider CDIL on a class of similar robots.
We tackle this problem by introducing an imitation learning algorithm based on
invariant representation. We propose to learn invariant state and action
representations, which aligns the behavior of multiple robots so that CDIL
becomes possible. Compared with previous invariant representation learning
methods for similar purpose, our method does not require human-labeled pairwise
data for training. Instead, we use cycle-consistency and domain confusion to
align the representation and increase its robustness. We test the algorithm on
multiple robots in simulator and show that unseen new robot instances can be
trained with existing expert demonstrations successfully. Qualitative results
also demonstrate that the proposed method is able to learn similar
representations for different robots with similar behaviors, which is essential
for successful CDIL.
- Abstract(参考訳): 動物は、バイオメカニクスの違いにもかかわらず、お互いの行動を模倣することができる。
対照的に、他の類似ロボットを模倣することは、ロボット工学においてずっと難しい作業だ。
この問題はクロスドメイン模倣学習(cdil)と呼ばれる。
本稿では,類似ロボットのクラスにおけるCDILについて考察する。
不変表現に基づく模倣学習アルゴリズムを導入することでこの問題に対処する。
本稿では,CDILを実現するために,複数のロボットの動作を調整する不変状態と動作表現の学習を提案する。
同様の目的で従来の不変表現学習法と比較すると,学習には人間のラベル付きペアワイズデータを必要としない。
代わりに、サイクルコンシスタンスとドメインの混乱を使って表現を調整し、堅牢性を高めます。
シミュレーションで複数のロボットでこのアルゴリズムをテストし、未知のロボットインスタンスが既存のエキスパートデモでうまく訓練できることを示す。
また,本手法は,CDILの成功に欠かせない,類似した動作の異なるロボットに対して,類似した表現を学習できることを示す。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Correspondence learning between morphologically different robots via
task demonstrations [2.1374208474242815]
形態の異なる2つ以上のロボットの対応関係を学習する手法を提案する。
本提案手法では,関節制御付き固定ベースマニピュレータロボットと差動駆動移動ロボットとが対応可能である。
本研究では,実際のマニピュレータロボットとシミュレートされた移動ロボットとの対応学習の概念実証を行う。
論文 参考訳(メタデータ) (2023-10-20T12:42:06Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Learning Bipedal Robot Locomotion from Human Movement [0.791553652441325]
本研究では、実世界の二足歩行ロボットに、モーションキャプチャーデータから直接の動きを教えるための強化学習に基づく手法を提案する。
本手法は,シミュレーション環境下でのトレーニングから,物理ロボット上での実行へシームレスに移行する。
本研究では,ダイナミックウォークサイクルから複雑なバランスや手振りに至るまでの動作を内製したヒューマノイドロボットについて実演する。
論文 参考訳(メタデータ) (2021-05-26T00:49:37Z) - Learning Cross-Domain Correspondence for Control with Dynamics
Cycle-Consistency [60.39133304370604]
サイクル一貫性制約を用いて2つのドメインで動的ロボットの挙動を調整することを学ぶ。
本フレームワークは,実ロボットアームの無補間単眼映像とシミュレーションアームの動的状態動作軌跡をペアデータなしで一致させることができる。
論文 参考訳(メタデータ) (2020-12-17T18:22:25Z) - Transformers for One-Shot Visual Imitation [28.69615089950047]
人間は、意図を推測し、過去の経験を使って同じ目的を達成することで、他人をシームレスに模倣することができる。
ロボット模倣学習の以前の研究は、専門家の人間のオペレーターから多様なスキルを習得できるエージェントを作成した。
本稿では,ロボットが過去の経験を生かして,これらの領域のギャップを部分的に埋めることのできる手法について検討する。
論文 参考訳(メタデータ) (2020-11-11T18:41:07Z) - Caption Generation of Robot Behaviors based on Unsupervised Learning of
Action Segments [10.356412004005767]
ロボットの行動シーケンスとその自然言語キャプションをブリッジすることは、人間のアシストロボットの説明可能性を高める重要な課題である。
本稿では,人間支援ロボットの動作を記述した自然言語キャプションを生成するシステムを提案する。
論文 参考訳(メタデータ) (2020-03-23T03:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。