論文の概要: Human-Robot Copilot for Data-Efficient Imitation Learning
- arxiv url: http://arxiv.org/abs/2604.03613v1
- Date: Sat, 04 Apr 2026 07:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.673525
- Title: Human-Robot Copilot for Data-Efficient Imitation Learning
- Title(参考訳): データ効率のよい模倣学習のための人間ロボットコパイロット
- Authors: Rui Yan, Zaitian Gongye, Lars Paulsen, Xuxin Cheng, Xiaolong Wang,
- Abstract要約: 遠隔操作による人間の実演を収集し,ロボットにタスク固有のスキルを教える枠組みを提案する。
Human-Robot Copilotフレームワークは、広範囲の産業用および研究用マニピュレータとの互換性を維持しながら、デクスタラス遠隔操作のスケーリングファクタを利用することができる。
- 参考スコア(独自算出の注目度): 38.76308745375941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting human demonstrations via teleoperation is a common approach for teaching robots task-specific skills. However, when only a limited number of demonstrations are available, policies are prone to entering out-of-distribution (OOD) states due to compounding errors or environmental stochasticity. Existing interactive imitation learning or human-in-the-loop methods try to address this issue by following the Human-Gated DAgger (HG-DAgger) paradigm, an approach that augments demonstrations through selective human intervention during policy execution. Nevertheless, these approaches struggle to balance dexterity and generality: they either provide fine-grained corrections but are limited to specific kinematic structures, or achieve generality at the cost of precise control. To overcome this limitation, we propose the Human-Robot Copilot framework that can leverage a scaling factor for dexterous teleoperation while maintaining compatibility with a wide range of industrial and research manipulators. Experimental results demonstrate that our framework achieves higher performance with the same number of demonstration trajectories. Moreover, since corrective interventions are required only intermittently, the overall data collection process is more efficient and less time-consuming.
- Abstract(参考訳): 遠隔操作による人間のデモンストレーションの収集は、ロボットにタスク固有のスキルを教える一般的な方法である。
しかしながら、限られた数のデモンストレーションしかできない場合、複合的なエラーや環境確率性のために、ポリシーは配布外状態(OOD)に入る傾向にある。
HG-DAgger(Human-Gated DAgger)パラダイム(Human-Gated DAgger、HG-DAgger、HG-DAgger、HG-DAgger、HG-DAgger)は、政策実行中の選択的な人間の介入を通じてデモンストレーションを強化する手法である。
これらのアプローチは、きめ細かい補正を提供するが、特定のキネマティック構造に限定されるか、正確に制御するコストで一般性を達成するかのどちらかである。
この制限を克服するために,広範囲の産業・研究用マニピュレータとの互換性を維持しつつ,デクスタラス遠隔操作のスケーリング係数を活用するHuman-Robot Copilotフレームワークを提案する。
実験結果から,本フレームワークは,同じ数の実演軌道で高い性能を達成できることが示された。
さらに、修正的介入は断続的にのみ必要であるため、全体的なデータ収集プロセスはより効率的で時間を要する。
関連論文リスト
- Learning Whole-Body Human-Humanoid Interaction from Human-Human Demonstrations [63.80827184637476]
D-STAR(D-STAR)は,行動すべき場所から行動すべき場所を乱す階層的な政策である。
広範かつ厳密なシミュレーションを通じて、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-14T14:37:06Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Imitation Learning with Precisely Labeled Human Demonstrations [0.0]
この研究は、ハンドヘルドグリップを使って効率的なデータ収集を行うことの可能性を実証する先行研究に基づいている。
我々は、グリップの外観に対するユーザの制御を、特にユニークで、セグメンタブルな色を割り当てることで、正確なエンドエフェクタポーズ推定を可能にする。
本研究は,ロボットによる実演における性能の88.1%に到達可能な政策を,人間による実演を正確にラベル付けしたシミュレーションで示す。
論文 参考訳(メタデータ) (2025-04-18T17:12:00Z) - Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models [4.0342998431529695]
本研究では,拡散政策が人的援助を必要時にのみ積極的に求め,一定の人的監視への依存を減らす方法を提案する。
我々は、拡散政策の生成過程を利用して、自律エージェントが展開時にオペレーター支援を要求できる不確実性に基づくメトリクスを計算する。
この手法は, 自律的な性能向上のために, 微調整拡散ポリシーの効率的なデータ収集に有効であることを示す。
論文 参考訳(メタデータ) (2025-02-26T15:12:29Z) - Affordance-based Robot Manipulation with Flow Matching [7.51335919610328]
本稿では,ロボット操作支援のためのフレームワークを提案する。
第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。
我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。