論文の概要: Learning Diffusion Policy from Primitive Skills for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2601.01948v1
- Date: Mon, 05 Jan 2026 09:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.632827
- Title: Learning Diffusion Policy from Primitive Skills for Robot Manipulation
- Title(参考訳): ロボットマニピュレーションのための原始スキルからの拡散政策の学習
- Authors: Zhihao Gu, Ming Yang, Difan Zou, Dong Xu,
- Abstract要約: 拡散政策(DP)は近年,ロボット操作における行動の生成において大きな期待を抱いている。
本稿では,解釈可能なスキル学習と条件付きアクションプランニングを統合した,スキル条件付きDPであるSDPを提案する。
- 参考スコア(独自算出の注目度): 36.95867683028485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion policies (DP) have recently shown great promise for generating actions in robotic manipulation. However, existing approaches often rely on global instructions to produce short-term control signals, which can result in misalignment in action generation. We conjecture that the primitive skills, referred to as fine-grained, short-horizon manipulations, such as ``move up'' and ``open the gripper'', provide a more intuitive and effective interface for robot learning. To bridge this gap, we propose SDP, a skill-conditioned DP that integrates interpretable skill learning with conditional action planning. SDP abstracts eight reusable primitive skills across tasks and employs a vision-language model to extract discrete representations from visual observations and language instructions. Based on them, a lightweight router network is designed to assign a desired primitive skill for each state, which helps construct a single-skill policy to generate skill-aligned actions. By decomposing complex tasks into a sequence of primitive skills and selecting a single-skill policy, SDP ensures skill-consistent behavior across diverse tasks. Extensive experiments on two challenging simulation benchmarks and real-world robot deployments demonstrate that SDP consistently outperforms SOTA methods, providing a new paradigm for skill-based robot learning with diffusion policies.
- Abstract(参考訳): 拡散政策(DP)は近年,ロボット操作における行動の生成において大きな期待を抱いている。
しかし、既存のアプローチはしばしば、短期的な制御信号を生成するためのグローバルな命令に依存しており、結果として行動生成の誤りが生じる可能性がある。
我々は,ロボット学習において,より直感的かつ効果的なインタフェースを提供するため,「ムーブアップ」や「グリップを開放する」といった,細粒で短い水平操作と呼ばれる原始的スキルを推察する。
このギャップを埋めるために,解釈可能なスキル学習と条件付きアクションプランニングを統合したスキル条件付きDPのSDPを提案する。
SDPは、タスク間で再利用可能な8つのプリミティブスキルを抽象化し、視覚観察と言語指示から個別表現を抽出するために視覚言語モデルを使用する。
それらに基づいて、軽量ルータネットワークは、各状態に所望のプリミティブスキルを割り当てるように設計されている。
複雑なタスクを一連のプリミティブなスキルに分解し、シングルスキルのポリシーを選択することで、SDPは多様なタスクにまたがるスキル一貫性の行動を保証する。
2つの挑戦的なシミュレーションベンチマークと実世界のロボット展開に関する大規模な実験により、SDPはSOTA法を一貫して上回り、拡散ポリシーを備えたスキルベースのロボット学習の新しいパラダイムを提供する。
関連論文リスト
- Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies [13.826293542795938]
拡散ベースのポリシーは最近、ロボット操作の強い結果を示しているが、マルチタスクシナリオへの拡張は、モデルサイズとデモのスケーリングコストの上昇によって妨げられている。
本稿では,SMP(Skill Mixture-of-Experts Policy)について紹介する。SMP(Skill Mixture-of-Experts Policy)は,SMP(Skill Mixture-of-Experts Policy)とSMP(Skill Mixture-of-Experts Policy)の2つについて述べる。
シミュレーションおよびマルチタスク学習および移動学習タスクを備えた実デュアルアームプラットフォーム上でSMPを検証し、SMPは大きな拡散ベースラインよりも高い成功率と推論コストを著しく低減する。
論文 参考訳(メタデータ) (2026-01-29T04:17:56Z) - RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。
大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。
強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-05-03T06:17:18Z) - Trajectory Adaptation using Large Language Models [0.8704964543257245]
新しい状況に応じた人間の指示に基づくロボット軌道の適応は、より直感的でスケーラブルな人間とロボットの相互作用を実現するために不可欠である。
本研究は,市販の移動プランナが生成する汎用ロボット軌道に適応する柔軟な言語ベースのフレームワークを提案する。
我々は、事前学習されたLLMを用いて、高密度ロボット操作のポリシーとしてコードを生成することにより、軌道方向の経路を適応させる。
論文 参考訳(メタデータ) (2025-04-17T08:48:23Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。