論文の概要: Diffusing in Someone Else's Shoes: Robotic Perspective Taking with Diffusion
- arxiv url: http://arxiv.org/abs/2404.07735v2
- Date: Fri, 04 Oct 2024 14:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:06:41.331693
- Title: Diffusing in Someone Else's Shoes: Robotic Perspective Taking with Diffusion
- Title(参考訳): エルスシューズにおける拡散 : 拡散を考慮したロボット視点
- Authors: Josua Spisak, Matthias Kerzel, Stefan Wermter,
- Abstract要約: ヒューマノイドロボットは、人間から学ぶことによって、人間の形状と類似性から恩恵を受けることができる。
第三者の視点から見たデモから精神的に移行できることは、人間にとってこの能力の基本である。
本研究では,ロボットが直接第三者によるデモンストレーションから学習し,一対一の視点を生成できる新しい拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 16.26334759935617
- License:
- Abstract: Humanoid robots can benefit from their similarity to the human shape by learning from humans. When humans teach other humans how to perform actions, they often demonstrate the actions, and the learning human imitates the demonstration to get an idea of how to perform the action. Being able to mentally transfer from a demonstration seen from a third-person perspective to how it should look from a first-person perspective is fundamental for this ability in humans. As this is a challenging task, it is often simplified for robots by creating demonstrations from the first-person perspective. Creating these demonstrations allows for an easier imitation but requires more effort. Therefore, we introduce a novel diffusion model that enables the robot to learn from the third-person demonstrations directly by learning to generate the first-person perspective from the third-person perspective. The model translates the size and rotations of objects and the environment between the two perspectives. This allows us to utilise the benefits of easy-to-produce third-person demonstrations and easy-to-imitate first-person demonstrations.
- Abstract(参考訳): ヒューマノイドロボットは、人間から学ぶことによって、人間の形状と類似性から恩恵を受けることができる。
人間が他の人間に行動の仕方を教えるとき、彼らはしばしばアクションを実演し、学習する人はその動作の仕方を知るためにデモを模倣する。
第三者の視点から見たデモから、一人称視点からどのように見えるかへ精神的に移行できることは、人間のこの能力に不可欠である。
これは難しい作業であるため、直接の視点からデモを作成することで、ロボットにとって単純化されることが多い。
これらのデモを作成することで、より簡単な模倣が可能になるが、より多くの努力を要する。
そこで本研究では,3人称視点から1人称視点を生成することを学習することで,ロボットが3人称実演から直接学習できる新しい拡散モデルを提案する。
モデルは、オブジェクトのサイズと回転と、2つの視点の間の環境を変換する。
これにより、簡単に生産できる第三者によるデモと、簡単に模倣できる個人によるデモの利点を活用できます。
関連論文リスト
- ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection [12.630451735872144]
人間は、他の人間を観察し、遊びを通して能力を改善することで、バイマニュアル操作のスキルを学ぶ。
心理学とバイオメカニクスの独創的な研究から着想を得て,両手間の相互作用を連続的なキネマティック・リンケージとしてモデル化することを提案する。
我々は、この新しい行動表現を活用するフレームワークであるScrewMimicを導入し、人間の実演と自己指導型政策微調整の学習を容易にする。
論文 参考訳(メタデータ) (2024-05-06T17:43:34Z) - Aligning Robot and Human Representations [50.070982136315784]
ロボット工学における現在の表現学習アプローチは、表現アライメントの目的がいかにうまく達成されているかの観点から研究されるべきである。
問題を数学的に定義し、その鍵となるデシダータを同定し、この形式主義の中に現在の方法を置く。
論文 参考訳(メタデータ) (2023-02-03T18:59:55Z) - Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。
関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文 参考訳(メタデータ) (2022-12-14T18:46:14Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning [5.072077366588174]
人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。
我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-03-03T17:06:37Z) - DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from
Video [86.49357517864937]
DexVIPは,人間と物体のインタラクションビデオから,器用なロボットの把握を学習する手法である。
我々は、人間とオブジェクトのインタラクションビデオから把握した画像をキュレートし、エージェントの手のポーズに先行する。
DexVIPは、手ポーズの無い既存のアプローチや、特殊な遠隔操作機器に頼っている既存のアプローチと良好に比較できることを実証する。
論文 参考訳(メタデータ) (2022-02-01T00:45:57Z) - Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文 参考訳(メタデータ) (2021-09-08T17:59:01Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Accounting for Human Learning when Inferring Human Preferences [0.0]
本研究では,人間を学習としてモデル化することにより,定常性の仮定を緩和する結果について検討する。
驚くべきことに、いくつかの小さな例では、これが人間が静止している場合よりも優れた推論につながることがわかっています。
さらに, 誤識別が推論に悪影響を及ぼす証拠が発見され, 人間の学習のモデル化が重要であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T06:50:24Z) - Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。
本稿では,厳密な把握を学習するためのアプローチを提案する。
私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文 参考訳(メタデータ) (2020-09-03T04:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。