論文の概要: Self-Supervised Disentangled Representation Learning for Third-Person
Imitation Learning
- arxiv url: http://arxiv.org/abs/2108.01069v1
- Date: Mon, 2 Aug 2021 17:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:25:47.044825
- Title: Self-Supervised Disentangled Representation Learning for Third-Person
Imitation Learning
- Title(参考訳): 自己監督型ディスタングル表現学習による3人称模倣学習
- Authors: Jinghuan Shang and Michael S. Ryoo
- Abstract要約: 第三者模倣学習(英: third-person mimicion learning, TPIL)とは、第三者の視点で他のエージェントを観察することで行動ポリシーを学習する概念である。
本稿では,ロボット作業におけるエゴモーションを用いたTPIL手法を提案する。
本稿では,TPILの状態学習を改善するために,不整合表現学習法を提案する。
- 参考スコア(独自算出の注目度): 45.62939275764248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans learn to imitate by observing others. However, robot imitation
learning generally requires expert demonstrations in the first-person view
(FPV). Collecting such FPV videos for every robot could be very expensive.
Third-person imitation learning (TPIL) is the concept of learning action
policies by observing other agents in a third-person view (TPV), similar to
what humans do. This ultimately allows utilizing human and robot demonstration
videos in TPV from many different data sources, for the policy learning. In
this paper, we present a TPIL approach for robot tasks with egomotion. Although
many robot tasks with ground/aerial mobility often involve actions with camera
egomotion, study on TPIL for such tasks has been limited. Here, FPV and TPV
observations are visually very different; FPV shows egomotion while the agent
appearance is only observable in TPV. To enable better state learning for TPIL,
we propose our disentangled representation learning method. We use a dual
auto-encoder structure plus representation permutation loss and
time-contrastive loss to ensure the state and viewpoint representations are
well disentangled. Our experiments show the effectiveness of our approach.
- Abstract(参考訳): 人間は他人を観察して模倣することを学ぶ。
しかし、ロボット模倣学習は通常、ファーストパーソンビュー(fpv)で専門家によるデモンストレーションを必要とする。
すべてのロボットにこうしたFPVビデオを集めるのは、非常にコストがかかる。
第三者模倣学習(英語: third-person mimicion learning, TPIL)とは、第三者の視点(TPV)で他のエージェントを観察することで行動ポリシーを学習する概念である。
これにより、ポリシー学習のために、さまざまなデータソースからtpv内の人間とロボットのデモビデオを活用することができる。
本稿では,ロボット作業におけるエゴモーションを用いたTPIL手法を提案する。
地上・空中移動のロボットタスクの多くは、カメラの自走動作を伴うことが多いが、そのようなタスクに対するTPILの研究は限られている。
ここでは、FPVとTPVの観察は視覚的には全く異なり、FPVは自走を示し、エージェントの外観はTPVでしか観察できない。
TPILのステートラーニングを改善するために,不整合表現学習法を提案する。
2つのオートエンコーダ構造と表現置換損失と時間連続損失を用いて、状態と視点の表現が適切に絡み合っていることを保証する。
我々の実験は我々のアプローチの有効性を示している。
関連論文リスト
- Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from
Video [86.49357517864937]
DexVIPは,人間と物体のインタラクションビデオから,器用なロボットの把握を学習する手法である。
我々は、人間とオブジェクトのインタラクションビデオから把握した画像をキュレートし、エージェントの手のポーズに先行する。
DexVIPは、手ポーズの無い既存のアプローチや、特殊な遠隔操作機器に頼っている既存のアプローチと良好に比較できることを実証する。
論文 参考訳(メタデータ) (2022-02-01T00:45:57Z) - Look Closer: Bridging Egocentric and Third-Person Views with
Transformers for Robotic Manipulation [15.632809977544907]
視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。
ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。
また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2022-01-19T18:39:03Z) - DexMV: Imitation Learning for Dexterous Manipulation from Human Videos [11.470141313103465]
本稿では,コンピュータビジョンとロボット学習のギャップを埋めるために,新しいプラットフォームとパイプラインであるDexMVを提案する。
i)多指ロボットハンドによる複雑な操作タスクのシミュレーションシステムと,(ii)人間の手による大規模な実演を記録するコンピュータビジョンシステムとを設計する。
実演ではロボット学習を大きなマージンで改善することができ、強化学習だけでは解決できない複雑なタスクを解決できることが示される。
論文 参考訳(メタデータ) (2021-08-12T17:51:18Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。