論文の概要: From a Single Demonstration to a General Policy for Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2605.17601v1
- Date: Sun, 17 May 2026 18:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.22492
- Title: From a Single Demonstration to a General Policy for Contact-Rich Manipulation
- Title(参考訳): シングルデモからコンタクトリッチマニピュレーションの一般政策へ
- Authors: Xing Li, Oliver Brock,
- Abstract要約: 本稿では,コンタクトリッチな操作タスクのワンショット一般化を実現するフレームワークを提案する。
環境制約を利用する一連の行動としてデモを表現することで、ロボットはタスク・ジェネラルな構造を分離する。
我々は,7つの実世界のコンタクトリッチな操作タスクに対するアプローチを検証するとともに,90%以上の成功を達成している。
- 参考スコア(独自算出の注目度): 16.799592363547337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a Learning from Demonstration (LfD) framework that achieves one-shot generalization in multi-stage, contact-rich manipulation tasks. Central to our approach is the utilization of environmental constraints as the inductive bias. By representing a demonstration as a sequence of behaviors that exploit environmental constraints, the robot separates task-general structure -- the constraint types and their transitions -- from instance-specific details such as exact demonstration trajectories, poses, and local geometries. Our four-stage pipeline builds a complete policy on this representation: the robot first abstracts a single demonstration into environmental-constraint primitives, then disambiguates them through self-guided exploration, next assimilates targeted human corrections that handle out-of-distribution variations, and finally recovers the abstracted-away details online through compliant interaction. Because the resulting policy follows constraints rather than mimics trajectories, it generalizes across object poses, local geometries, and unmodeled contact dynamics. We validate our approach on seven real-world multi-stage contact-rich manipulation tasks and achieve over 90% success. These extensive experimental results establish environmental constraints as fundamental building blocks for efficient generalization in learning from demonstration.
- Abstract(参考訳): マルチステージ・コンタクトリッチな操作タスクにおいてワンショットの一般化を実現するLearning from Demonstration (LfD) フレームワークを提案する。
私たちのアプローチの中心は、帰納バイアスとしての環境制約の利用です。
ロボットは、環境制約を生かした行動のシーケンスとしてデモを表現することで、タスク全体構造(制約タイプとその遷移)を、正確なデモンストレーション軌跡、ポーズ、ローカルジオメトリなどのインスタンス固有の詳細から分離する。
ロボットはまず、環境に制約のあるプリミティブに1つのデモを抽象化し、それから自己誘導的な探索を通じてそれらを曖昧にします。
結果として得られるポリシーは軌道を模倣するよりも制約に従うため、オブジェクトのポーズ、局所幾何学、非モデル化された接触力学を一般化する。
我々は,7つの実世界のマルチステージコンタクトリッチな操作タスクに対するアプローチを検証し,90%以上の成功を収めた。
これらの広範な実験結果は、実演から学習する際の効率的な一般化のための基本的なビルディングブロックとして環境制約を定めている。
関連論文リスト
- ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation [46.06124092071133]
ロボット操作のための新しい動き指向キーポイント(CoMOK)の定式化を提案する。
私たちの定式化は、エンドツーエンドでトレーニング可能なニューラルポリシーのアクション表現として使用されます。
論文 参考訳(メタデータ) (2025-09-25T07:29:07Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [82.27842884709378]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z) - Planning-Guided Diffusion Policy Learning for Generalizable Contact-Rich Bimanual Manipulation [16.244250979166214]
Generalizable Planning-Guided Diffusion Policy Learning (GLIDE)は、コンタクトリッチな双方向操作タスクを解決するためのアプローチである。
本稿では,特徴抽出,タスク表現,行動予測,データ拡張における重要な設計オプションのセットを提案する。
本手法は, 多様な地形, 寸法, 物理的特性の物体を効果的に操作することができる。
論文 参考訳(メタデータ) (2024-12-03T18:51:39Z) - Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames [10.738838923944876]
既存の方法は、タスクのバリエーションをカバーするために、かなりの数のデモを必要とする。
我々は、状態空間と行動空間の構造化表現である指向性アプライアンスフレームを導入する。
この抽象化によって、独立に訓練されたサブ政治の構成的一般化が可能となることを示す。
本手法は実世界の3つのタスクにまたがって検証し,多段階多目的インタラクションを必要とする。
論文 参考訳(メタデータ) (2024-10-15T23:57:35Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Learning to Generalize Across Long-Horizon Tasks from Human
Demonstrations [52.696205074092006]
Generalization Through Imitation (GTI) は、2段階のオフライン模倣学習アルゴリズムである。
GTIは、状態空間の共通領域で異なるタスクの軌道を示す構造を利用する。
GTIの第1段階では,異なる実演軌跡から行動を構成する能力を持つために交差点を利用する政策を訓練する。
GTIの第2段階では、ゴール指向エージェントをトレーニングして、新しいスタートとゴールの設定を一般化する。
論文 参考訳(メタデータ) (2020-03-13T02:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。