論文の概要: Skill-Aware Diffusion for Generalizable Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2601.11266v1
- Date: Fri, 16 Jan 2026 13:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.81234
- Title: Skill-Aware Diffusion for Generalizable Robotic Manipulation
- Title(参考訳): 汎用ロボットマニピュレーションのためのスキル・アウェア拡散
- Authors: Aoshen Huang, Jiaming Chen, Jiyu Cheng, Ran Song, Wei Pan, Wei Zhang,
- Abstract要約: 本稿では,スキルレベルの情報を明示的に組み込んだSADiff(Skill-Aware Diffusion)を提案する。
SADiffは、学習可能なスキルトークンを備えたスキル認識エンコーディングモジュールを通じて、スキル固有の表現を学ぶ。
シミュレーションと実世界の設定実験により、SADiffは様々な操作タスクで優れたパフォーマンスと一般化を実現していることが示された。
- 参考スコア(独自算出の注目度): 10.771128286526634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust generalization in robotic manipulation is crucial for robots to adapt flexibly to diverse environments. Existing methods usually improve generalization by scaling data and networks, but model tasks independently and overlook skill-level information. Observing that tasks within the same skill share similar motion patterns, we propose Skill-Aware Diffusion (SADiff), which explicitly incorporates skill-level information to improve generalization. SADiff learns skill-specific representations through a skill-aware encoding module with learnable skill tokens, and conditions a skill-constrained diffusion model to generate object-centric motion flow. A skill-retrieval transformation strategy further exploits skill-specific trajectory priors to refine the mapping from 2D motion flow to executable 3D actions. Furthermore, we introduce IsaacSkill, a high-fidelity dataset containing fundamental robotic skills for comprehensive evaluation and sim-to-real transfer. Experiments in simulation and real-world settings show that SADiff achieves good performance and generalization across various manipulation tasks. Code, data, and videos are available at https://sites.google.com/view/sa-diff.
- Abstract(参考訳): ロボット操作におけるロバストな一般化は、ロボットが多様な環境に柔軟に適応するために不可欠である。
既存の手法は通常、データとネットワークのスケーリングによって一般化を改善するが、個別にタスクをモデル化し、スキルレベルの情報を見落としている。
同じスキル内のタスクが同様の動作パターンを共有するのを観察し、スキルレベルの情報を明示的に組み込んだSADiff(Skill-Aware Diffusion)を提案する。
SADiffは、学習可能なスキルトークンを備えたスキル認識型エンコーディングモジュールを通じて、スキル固有の表現を学び、スキル制約付き拡散モデルを用いて、オブジェクト中心のモーションフローを生成する。
スキル検索変換戦略は,2次元運動フローから実行可能な3次元動作へのマッピングを洗練するために,スキル固有の軌道先をさらに活用する。
さらに、包括的評価とシム・トゥ・リアル・トランスファーのための基本的なロボット技術を含む高忠実度データセットであるIsaacSkillを紹介した。
シミュレーションと実世界の設定実験により、SADiffは様々な操作タスクで優れたパフォーマンスと一般化を実現していることが示された。
コード、データ、ビデオはhttps://sites.google.com/view/sa-diff.comで公開されている。
関連論文リスト
- Learning Skills from Action-Free Videos [20.442392109789772]
我々は,アクションフリービデオから潜在スキルを学ぶためのフレームワークであるSkill Abstraction from Optical Flow (SOF)を紹介した。
SOFは、ビデオ由来のスキルよりも高いレベルのプランニングを可能にし、これらのスキルのアクションへの翻訳を容易にする。
実験により,マルチタスクとロングホライズン設定の両方において,提案手法は一貫して性能を向上することが示された。
論文 参考訳(メタデータ) (2025-12-23T05:03:33Z) - SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation [3.1997825444285457]
動的非構造環境における現実世界のロボット操作は、進化するオブジェクト、シーン、タスクに対して生涯の適応性を必要とする。
伝統的な模倣学習は、生涯適応に不適な静的な訓練パラダイムに依存している。
我々は,ロボット操作のための新しいエンドツーエンドの階層型CILポリシーアーキテクチャである,スキル・プロンプトに基づく階層型連続模倣学習(SPECI)を提案する。
論文 参考訳(メタデータ) (2025-04-22T03:30:38Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。