論文の概要: SafeMimic: Towards Safe and Autonomous Human-to-Robot Imitation for Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2506.15847v1
- Date: Wed, 18 Jun 2025 19:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.833977
- Title: SafeMimic: Towards Safe and Autonomous Human-to-Robot Imitation for Mobile Manipulation
- Title(参考訳): SafeMimic:モバイル操作のための安全で自律的な人間とロボットの模倣を目指して
- Authors: Arpit Bahety, Arnav Balaji, Ben Abbatematteo, Roberto Martín-Martín,
- Abstract要約: SafeMimicは、一人の第三者のビデオから、新しいモバイル操作スキルを安全かつ自律的に学ぶためのフレームワークだ。
ビデオはセグメントに解析され、引き起こされた意味の変化と、人間が実行した動作の両方を推測する。
そして、人間の周囲の候補行動をサンプリングすることで、ロボット自身の行動に適応する。
- 参考スコア(独自算出の注目度): 9.883164852612682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For robots to become efficient helpers in the home, they must learn to perform new mobile manipulation tasks simply by watching humans perform them. Learning from a single video demonstration from a human is challenging as the robot needs to first extract from the demo what needs to be done and how, translate the strategy from a third to a first-person perspective, and then adapt it to be successful with its own morphology. Furthermore, to mitigate the dependency on costly human monitoring, this learning process should be performed in a safe and autonomous manner. We present SafeMimic, a framework to learn new mobile manipulation skills safely and autonomously from a single third-person human video. Given an initial human video demonstration of a multi-step mobile manipulation task, SafeMimic first parses the video into segments, inferring both the semantic changes caused and the motions the human executed to achieve them and translating them to an egocentric reference. Then, it adapts the behavior to the robot's own morphology by sampling candidate actions around the human ones, and verifying them for safety before execution in a receding horizon fashion using an ensemble of safety Q-functions trained in simulation. When safe forward progression is not possible, SafeMimic backtracks to previous states and attempts a different sequence of actions, adapting both the trajectory and the grasping modes when required for its morphology. As a result, SafeMimic yields a strategy that succeeds in the demonstrated behavior and learns task-specific actions that reduce exploration in future attempts. Our experiments show that our method allows robots to safely and efficiently learn multi-step mobile manipulation behaviors from a single human demonstration, from different users, and in different environments, with improvements over state-of-the-art baselines across seven tasks
- Abstract(参考訳): ロボットが家庭で効率のよいヘルパーになるためには、人間がそれを実行するのを見るだけで、新しいモバイル操作タスクを学ばなければならない。
ロボットはまず、必要なことをデモから抽出し、第3の視点から第1の視点に戦略を翻訳し、それを自身の形態で成功させるために適応する必要があるため、人間から1つのビデオデモから学ぶことは難しい。
さらに、コストのかかる人的監視への依存を軽減するために、この学習プロセスは安全かつ自律的な方法で実行されるべきである。
SafeMimicは、一人の第三者によるビデオから、新しいモバイル操作スキルを安全かつ自律的に学習するフレームワークである。
SafeMimicは、マルチステップのモバイル操作タスクの最初の人間のビデオデモを与えられた後、まずビデオをセグメントに解析し、発生したセマンティックな変化と、実行した人間の動作の両方を推測して、それらをエゴセントリックな参照に翻訳する。
そして、ロボット自身の形態に適応し、人間の周囲の候補動作をサンプリングし、シミュレーションで訓練された安全Q-関数のアンサンブルを用いて、後退地平線方式で実行前の安全のために検証する。
安全な前進が不可能な場合、SafeMimicは以前の状態にバックトラックして異なる動作のシーケンスを試行し、その形態に要求される軌跡と把握モードの両方を適応させる。
その結果、SafeMimicは、実証された行動に成功する戦略を導き、将来の試みにおける探索を減らすタスク固有の行動を学ぶ。
実験の結果、ロボットは、異なるユーザーから、異なる環境から、そして異なる環境から、単一の人間のデモから、複数ステップの移動操作動作を安全かつ効率的に学習し、7つのタスクにわたる最先端のベースラインを改善することができることがわかった。
関連論文リスト
- ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos [15.809468471562537]
ZeroMimicは、複数の共通操作タスクに対して、イメージ目標条件のスキルポリシーを生成する。
我々は,ZeroMimicのアウト・オブ・ボックス性能を実環境やシミュレートされたキッチン設定で評価した。
他のタスク設定やロボット上でZeroMimicポリシーをプラグアンドプレイで再利用するために、ソフトウェアとポリシーチェックポイントをリリースする。
論文 参考訳(メタデータ) (2025-03-31T09:27:00Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference [35.54663426598218]
本稿では,ビデオ上での人間の嗜好を直接フィードバックすることで,人類の普遍性を学習するフレームワークを提案する。
多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することにより、タスクに依存しない報酬モデルを訓練する。
提案手法は,ロボットの手の動作を,目に見えないタスクを含む多様なタスクで実証的に示す。
論文 参考訳(メタデータ) (2023-04-10T14:17:33Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。
関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文 参考訳(メタデータ) (2022-12-14T18:46:14Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Transformers for One-Shot Visual Imitation [28.69615089950047]
人間は、意図を推測し、過去の経験を使って同じ目的を達成することで、他人をシームレスに模倣することができる。
ロボット模倣学習の以前の研究は、専門家の人間のオペレーターから多様なスキルを習得できるエージェントを作成した。
本稿では,ロボットが過去の経験を生かして,これらの領域のギャップを部分的に埋めることのできる手法について検討する。
論文 参考訳(メタデータ) (2020-11-11T18:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。