論文の概要: Learning Semantic Atomic Skills for Multi-Task Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.18368v1
- Date: Sat, 20 Dec 2025 13:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.44823
- Title: Learning Semantic Atomic Skills for Multi-Task Robotic Manipulation
- Title(参考訳): マルチタスクロボットマニピュレーションのための意味的原子スキルの学習
- Authors: Yihang Zhu, Weiqing Wang, Shijie Wu, Ye Shi, Jingya Wang,
- Abstract要約: AtomSkillは、新しいマルチタスク模倣学習フレームワークである。
構成可能なロボット操作のために構造化された原子スキルスペースを学習し活用する。
さまざまな操作タスクにまたがって、最先端のメソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 34.73582639920571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While imitation learning has shown impressive results in single-task robot manipulation, scaling it to multi-task settings remains a fundamental challenge due to issues such as suboptimal demonstrations, trajectory noise, and behavioral multi-modality. Existing skill-based methods attempt to address this by decomposing actions into reusable abstractions, but they often rely on fixed-length segmentation or environmental priors that limit semantic consistency and cross-task generalization. In this work, we propose AtomSkill, a novel multi-task imitation learning framework that learns and leverages a structured Atomic Skill Space for composable robot manipulation. Our approach is built on two key technical contributions. First, we construct a Semantically Grounded Atomic Skill Library by partitioning demonstrations into variable-length skills using gripper-state keyframe detection and vision-language model annotation. A contrastive learning objective ensures the resulting skill embeddings are both semantically consistent and temporally coherent. Second, we propose an Action Generation module with Keypose Imagination, which jointly predicts a skill's long-horizon terminal keypose and its immediate action sequence. This enables the policy to reason about overarching motion goals and fine-grained control simultaneously, facilitating robust skill chaining. Extensive experiments in simulated and real-world environments show that AtomSkill consistently outperforms state-of-the-art methods across diverse manipulation tasks.
- Abstract(参考訳): 模倣学習はシングルタスクロボットの操作において印象的な結果を示しているが、最適以下のデモ、軌道ノイズ、行動多様性といった問題により、マルチタスク設定にスケールすることは依然として根本的な課題である。
既存のスキルベースの手法は、アクションを再利用可能な抽象化に分解することでこの問題に対処しようとするが、それらはしばしば意味的一貫性とクロスタスクの一般化を制限する固定長のセグメンテーションや環境優先に依存している。
本研究では,構成可能なロボット操作のための構造化原子スキル空間を学習し,活用する,新しいマルチタスク模倣学習フレームワークAtomSkillを提案する。
当社のアプローチは,2つの重要な技術的コントリビューションに基づいています。
まず、グリップ状態鍵フレーム検出と視覚言語モデルアノテーションを用いて、デモを可変長のスキルに分割することで、セマンティックグラウンドドアトミックスキルライブラリを構築する。
対照的な学習目的は、結果として得られるスキルの埋め込みが意味的に一貫性があり、時間的に一貫性があることを保証する。
第2に,キープレイス・イマジネーションを付加したアクション生成モジュールを提案し,スキルの長軸終端キーポジションとその即時アクションシーケンスを共同で予測する。
これにより、ポリシーは動きの目標を整理し、きめ細かな制御を同時に行うことができ、堅牢なスキル連鎖を促進することができる。
シミュレーションおよび実世界の環境における大規模な実験は、AtomSkillが様々な操作タスクで常に最先端のメソッドより優れていることを示している。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending [79.83865372778273]
SkillBlenderは、多目的なヒューマノイドロコ操作のための新しい階層的強化学習フレームワークである。
SkillBlenderは、まずゴール条件付きタスク非依存のプリミティブスキルを事前訓練し、その後、これらのスキルを動的にブレンドして複雑なロコ操作タスクを達成する。
また,3つのエボディメント,4つのプリミティブスキル,8つの難解なロコ操作タスクを含む並列的,クロスエボディメント,多種多様なシミュレーションベンチマークであるSkillBenchを紹介した。
論文 参考訳(メタデータ) (2025-06-11T03:24:26Z) - You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations [38.835807227433335]
双方向ロボット操作は、インテリジェンスを具現化した長年にわたる課題である。
両眼でのみ観察できるヨト(YOTO)を提案する。
YOTOは5つの複雑なロングホライゾンのバイマニュアルタスクを模倣することで、素晴らしいパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-24T03:26:41Z) - AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。
我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。
提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文 参考訳(メタデータ) (2024-03-19T15:41:39Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable
Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。
ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。
ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文 参考訳(メタデータ) (2021-07-30T08:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。