論文の概要: When a Robot is More Capable than a Human: Learning from Constrained Demonstrators
- arxiv url: http://arxiv.org/abs/2510.09096v1
- Date: Fri, 10 Oct 2025 07:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.931231
- Title: When a Robot is More Capable than a Human: Learning from Constrained Demonstrators
- Title(参考訳): ロボットが人間より能力が高いとき-拘束されたデモから学ぶ
- Authors: Xinhu Li, Ayush Jain, Zhaojing Yang, Yigit Korkmaz, Erdem Bıyık,
- Abstract要約: デモンストレーションから学んだ専門家は、審美的な教育、ジョイスティックコントロール、シム・トゥ・リアル・トランスファーといったインターフェースを使って、ロボットに複雑なタスクを教えることができる。
これらのインターフェースは、間接的な制御、セットアップの制限、ハードウェアの安全性による最適な動作を示す専門家の能力をしばしば制限する。
ロボットは、制約のある専門家が示したものよりも優れたポリシーを学べるだろうか?
我々は、エージェントが専門家の行動の直接の模倣を越えて、より短くより効率的な軌道を探索できるようにすることで、この問題に対処する。
- 参考スコア(独自算出の注目度): 4.015444385806047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from demonstrations enables experts to teach robots complex tasks using interfaces such as kinesthetic teaching, joystick control, and sim-to-real transfer. However, these interfaces often constrain the expert's ability to demonstrate optimal behavior due to indirect control, setup restrictions, and hardware safety. For example, a joystick can move a robotic arm only in a 2D plane, even though the robot operates in a higher-dimensional space. As a result, the demonstrations collected by constrained experts lead to suboptimal performance of the learned policies. This raises a key question: Can a robot learn a better policy than the one demonstrated by a constrained expert? We address this by allowing the agent to go beyond direct imitation of expert actions and explore shorter and more efficient trajectories. We use the demonstrations to infer a state-only reward signal that measures task progress, and self-label reward for unknown states using temporal interpolation. Our approach outperforms common imitation learning in both sample efficiency and task completion time. On a real WidowX robotic arm, it completes the task in 12 seconds, 10x faster than behavioral cloning, as shown in real-robot videos on https://sites.google.com/view/constrainedexpert .
- Abstract(参考訳): デモから学んだ専門家は、審美的な教育、ジョイスティックコントロール、シム・トゥ・リアル・トランスファーといったインターフェースを使って、ロボットに複雑なタスクを教えることができる。
しかしながら、これらのインターフェースは、間接的な制御、セットアップの制限、ハードウェアの安全性による最適な動作を示す専門家の能力をしばしば制限する。
例えばジョイスティックは、ロボットが高次元空間で動作していても、2次元平面でのみロボットアームを動かすことができる。
その結果、制約のある専門家によって収集されたデモは、学習されたポリシーの最適以下のパフォーマンスにつながる。
ロボットは、制約のある専門家が示したものよりも優れたポリシーを学べるだろうか?
我々は、エージェントが専門家の行動の直接の模倣を越えて、より短くより効率的な軌道を探索できるようにすることで、この問題に対処する。
本研究では,タスク進捗を測定する状態のみの報酬信号と,時間的補間を用いた未知の状態に対する自己ラベル報酬を推定するために,実演を用いた。
提案手法は、サンプル効率とタスク完了時間の両方において、一般的な模倣学習より優れている。
実際のWidowXロボットアームでは、https://sites.google.com/view/constrainedexpertの実際のロボットビデオに示されているように、タスクを12秒で完了させる。
関連論文リスト
- From Human Hands to Robot Arms: Manipulation Skills Transfer via Trajectory Alignment [36.08997778717271]
現実世界のロボットの多様な操作スキルを学ぶことは、高価でスケールの難しい遠隔操作によるデモンストレーションに依存することでボトルネックとなる。
本稿では,操作終端の3次元軌跡を統一中間表現として利用することにより,この実施ギャップを橋渡しする新しいフレームワークであるTraj2Actionを紹介する。
我々の方針はまず,人間とロボットの両方のデータを活用することで,高レベルの運動計画を形成する粗い軌道を生成することを学習する。
論文 参考訳(メタデータ) (2025-10-01T04:21:12Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - AR2-D2:Training a Robot Without a Robot [53.10633639596096]
専門的な訓練を要さないデモを収集するシステムであるAR2-D2を紹介する。
AR2-D2は、iOSアプリの形式で、あらゆるオブジェクトを操作する自身のビデオを記録するために使用することができるフレームワークである。
本研究では,本システムを用いて収集したデータにより,実物操作における行動クローニングエージェントの訓練が可能となることを示す。
論文 参考訳(メタデータ) (2023-06-23T23:54:26Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Training Robots without Robots: Deep Imitation Learning for
Master-to-Robot Policy Transfer [4.318590074766604]
深層模倣学習は、デモサンプルのみを必要とするため、ロボット操作に有望である。
既存の実証手法には欠点があり、双方向遠隔操作には複雑な制御方式が必要であり、高価である。
本研究は、力覚フィードバックに基づく操作タスクをロボットに教える必要がない新しいM2Rポリシー伝達システムを提案する。
論文 参考訳(メタデータ) (2022-02-19T10:55:10Z) - Transformers for One-Shot Visual Imitation [28.69615089950047]
人間は、意図を推測し、過去の経験を使って同じ目的を達成することで、他人をシームレスに模倣することができる。
ロボット模倣学習の以前の研究は、専門家の人間のオペレーターから多様なスキルを習得できるエージェントを作成した。
本稿では,ロボットが過去の経験を生かして,これらの領域のギャップを部分的に埋めることのできる手法について検討する。
論文 参考訳(メタデータ) (2020-11-11T18:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。