Fugu-MT 論文翻訳(概要): Diffusing in Someone Else's Shoes: Robotic Perspective Taking with Diffusion

論文の概要: Diffusing in Someone Else's Shoes: Robotic Perspective Taking with Diffusion

arxiv url: http://arxiv.org/abs/2404.07735v1
Date: Thu, 11 Apr 2024 13:30:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 13:59:46.691412
Title: Diffusing in Someone Else's Shoes: Robotic Perspective Taking with Diffusion
Title（参考訳）: エルスシューズにおける拡散 : 拡散を考慮したロボット視点
Authors: Josua Spisak, Matthias Kerzel, Stefan Wermter,
Abstract要約: ヒューマノイドロボットは、人間から学ぶことによって、人間の形状と類似性から恩恵を受けることができる。第三者の視点から見たデモから精神的に移行できることは、人間にとってこの能力の基本である。本研究では,ロボットが第三者によるデモンストレーションから直接学習できるようにすることを目的とした,新しい拡散モデルを提案する。
参考スコア（独自算出の注目度）: 16.26334759935617
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humanoid robots can benefit from their similarity to the human shape by learning from humans. When humans teach other humans how to perform actions, they often demonstrate the actions and the learning human can try to imitate the demonstration. Being able to mentally transfer from a demonstration seen from a third-person perspective to how it should look from a first-person perspective is fundamental for this ability in humans. As this is a challenging task, it is often simplified for robots by creating a demonstration in the first-person perspective. Creating these demonstrations requires more effort but allows for an easier imitation. We introduce a novel diffusion model aimed at enabling the robot to directly learn from the third-person demonstrations. Our model is capable of learning and generating the first-person perspective from the third-person perspective by translating the size and rotations of objects and the environment between two perspectives. This allows us to utilise the benefits of easy-to-produce third-person demonstrations and easy-to-imitate first-person demonstrations. The model can either represent the first-person perspective in an RGB image or calculate the joint values. Our approach significantly outperforms other image-to-image models in this task.
Abstract（参考訳）: ヒューマノイドロボットは、人間から学ぶことによって、人間の形状と類似性から恩恵を受けることができる。人間が他の人間に行動の仕方を教えるとき、彼らはしばしば行動を示し、学習する人はそのデモンストレーションを模倣しようとする。第三者の視点から見たデモから、一人称視点からどのように見えるかへ精神的に移行できることは、人間のこの能力に不可欠である。これは難しい作業であるため、ロボットにとって第一の視点でデモを作成することで、しばしば単純化される。これらのデモを作成するには、より多くの労力が必要ですが、簡単に模倣することができます。本研究では,ロボットが第三者によるデモンストレーションから直接学習できるようにすることを目的とした,新しい拡散モデルを提案する。本モデルでは,2つの視点間の物体と環境の大きさと回転を変換することにより,第3の視点から第1の視点を学習し,生成することができる。これにより、簡単に生産できる第三者によるデモと、簡単に模倣できる個人によるデモの利点を活用できます。モデルは、RGB画像の1人称視点を表すか、ジョイント値を計算することができる。本研究の手法は,他の画像・画像モデルよりも優れている。

関連論文リスト

SafeMimic: Towards Safe and Autonomous Human-to-Robot Imitation for Mobile Manipulation [9.883164852612682]
SafeMimicは、一人の第三者のビデオから、新しいモバイル操作スキルを安全かつ自律的に学ぶためのフレームワークだ。ビデオはセグメントに解析され、引き起こされた意味の変化と、人間が実行した動作の両方を推測する。そして、人間の周囲の候補行動をサンプリングすることで、ロボット自身の行動に適応する。
論文参考訳（メタデータ） (2025-06-18T19:55:10Z)
CIVIL: Causal and Intuitive Visual Imitation Learning [7.824893759224394]
CIVILと呼ばれる視覚模倣学習のための新しい手法を提案する。我々は,タスク関連機能を示すために,マーカーと言語プロンプトを使用する。我々のシミュレーション、実世界の実験、そしてユーザースタディは、CIVILで訓練されたロボットが人間のデモを減らし、最先端のベースラインよりも優れたパフォーマンスを発揮できることを示した。
論文参考訳（メタデータ） (2025-04-24T22:08:29Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
DIRIGENt: End-To-End Robotic Imitation of Human Demonstrations Based on a Diffusion Model [16.26334759935617]
本研究では,人間の実演の観察から共同価値を生成するための新しいエンドツーエンド拡散手法であるDIRIGENtを紹介する。我々は、人間がロボットを模倣するデータセットを作成し、この収集されたデータを使って、ロボットが人間を模倣できる拡散モデルを訓練する。
論文参考訳（メタデータ） (2025-01-28T09:05:03Z)
ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection [12.630451735872144]
人間は、他の人間を観察し、遊びを通して能力を改善することで、バイマニュアル操作のスキルを学ぶ。心理学とバイオメカニクスの独創的な研究から着想を得て,両手間の相互作用を連続的なキネマティック・リンケージとしてモデル化することを提案する。我々は、この新しい行動表現を活用するフレームワークであるScrewMimicを導入し、人間の実演と自己指導型政策微調整の学習を容易にする。
論文参考訳（メタデータ） (2024-05-06T17:43:34Z)
Aligning Robot and Human Representations [50.070982136315784]
ロボット工学における現在の表現学習アプローチは、表現アライメントの目的がいかにうまく達成されているかの観点から研究されるべきである。問題を数学的に定義し、その鍵となるデシダータを同定し、この形式主義の中に現在の方法を置く。
論文参考訳（メタデータ） (2023-02-03T18:59:55Z)
Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文参考訳（メタデータ） (2022-12-14T18:46:14Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
Reasoning about Counterfactuals to Improve Human Inverse Reinforcement Learning [5.072077366588174]
人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
論文参考訳（メタデータ） (2022-03-03T17:06:37Z)
DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from Video [86.49357517864937]
DexVIPは,人間と物体のインタラクションビデオから,器用なロボットの把握を学習する手法である。我々は、人間とオブジェクトのインタラクションビデオから把握した画像をキュレートし、エージェントの手のポーズに先行する。 DexVIPは、手ポーズの無い既存のアプローチや、特殊な遠隔操作機器に頼っている既存のアプローチと良好に比較できることを実証する。
論文参考訳（メタデータ） (2022-02-01T00:45:57Z)
Video2Skill: Adapting Events in Demonstration Videos to Skills in an Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文参考訳（メタデータ） (2021-09-08T17:59:01Z)
Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。 19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文参考訳（メタデータ） (2021-07-19T17:54:48Z)
Accounting for Human Learning when Inferring Human Preferences [0.0]
本研究では,人間を学習としてモデル化することにより,定常性の仮定を緩和する結果について検討する。驚くべきことに、いくつかの小さな例では、これが人間が静止している場合よりも優れた推論につながることがわかっています。さらに, 誤識別が推論に悪影響を及ぼす証拠が発見され, 人間の学習のモデル化が重要であることが示唆された。
論文参考訳（メタデータ） (2020-11-11T06:50:24Z)
Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。本稿では,厳密な把握を学習するためのアプローチを提案する。私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文参考訳（メタデータ） (2020-09-03T04:00:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。