論文の概要: Tool-as-Interface: Learning Robot Policies from Human Tool Usage through Imitation Learning
- arxiv url: http://arxiv.org/abs/2504.04612v1
- Date: Sun, 06 Apr 2025 20:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:13:17.088697
- Title: Tool-as-Interface: Learning Robot Policies from Human Tool Usage through Imitation Learning
- Title(参考訳): ツール・アズ・インタフェース:模倣学習による人間ツール利用からロボットポリシーを学習する
- Authors: Haonan Chen, Cheng Zhu, Yunzhu Li, Katherine Driggs-Campbell,
- Abstract要約: ツール使用時の知識を人間からロボットに伝達する枠組みを提案する。
我々は,ミートボールスクーピング,パンフリップ,ワインボトルのバランス,その他の複雑なタスクなど,現実世界のさまざまなタスクに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 16.394434999046293
- License:
- Abstract: Tool use is critical for enabling robots to perform complex real-world tasks, and leveraging human tool-use data can be instrumental for teaching robots. However, existing data collection methods like teleoperation are slow, prone to control delays, and unsuitable for dynamic tasks. In contrast, human natural data, where humans directly perform tasks with tools, offers natural, unstructured interactions that are both efficient and easy to collect. Building on the insight that humans and robots can share the same tools, we propose a framework to transfer tool-use knowledge from human data to robots. Using two RGB cameras, our method generates 3D reconstruction, applies Gaussian splatting for novel view augmentation, employs segmentation models to extract embodiment-agnostic observations, and leverages task-space tool-action representations to train visuomotor policies. We validate our approach on diverse real-world tasks, including meatball scooping, pan flipping, wine bottle balancing, and other complex tasks. Our method achieves a 71\% higher average success rate compared to diffusion policies trained with teleoperation data and reduces data collection time by 77\%, with some tasks solvable only by our framework. Compared to hand-held gripper, our method cuts data collection time by 41\%. Additionally, our method bridges the embodiment gap, improves robustness to variations in camera viewpoints and robot configurations, and generalizes effectively across objects and spatial setups.
- Abstract(参考訳): ツールの使用は、ロボットが複雑な現実世界のタスクを実行できるようにするために重要であり、人間のツール利用データを活用することは、ロボットを教えるのに役立つ。
しかし、遠隔操作のような既存のデータ収集手法は遅く、遅延を制御する傾向があり、動的タスクには適さない。
対照的に、人間がツールを使って直接タスクを実行する人間の自然データは、効率的かつ容易に収集できる自然な非構造的な相互作用を提供する。
人間とロボットが同じツールを共有できるという知見に基づいて、人間のデータからロボットにツール使用に関する知識を伝達するためのフレームワークを提案する。
2台のRGBカメラを用いて3次元再構成を行い、新しいビュー拡張にガウススプラッティングを適用し、エンボディメント非依存的な観察を抽出するためにセグメンテーションモデルを使用し、タスク空間のツールアクション表現を利用してビジュモータポリシーを訓練する。
我々は,ミートボールスクーピング,パンフリップ,ワインボトルのバランス,その他の複雑なタスクなど,現実世界のさまざまなタスクに対するアプローチを検証する。
本手法は遠隔操作データで訓練された拡散ポリシーと比較して平均成功率を71 %向上させ,データ収集時間を77 %削減する。
ハンドヘルドグリップと比較して,データ収集時間を41%削減する。
さらに,本手法はエンボディメントギャップをブリッジし,カメラ視点やロボット構成の変動に対するロバスト性を向上し,オブジェクトや空間設定を効果的に一般化する。
関連論文リスト
- VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquibotを提案する。
提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。
本手法は,5分間の人間による実演から学ぶことで,新しい物体やシーンに容易に一般化できることが示唆された。
論文 参考訳(メタデータ) (2024-07-01T17:09:43Z) - Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。
これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。
これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文 参考訳(メタデータ) (2024-06-29T03:37:29Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。