論文の概要: General-purpose Clothes Manipulation with Semantic Keypoints
- arxiv url: http://arxiv.org/abs/2408.08160v2
- Date: Thu, 26 Sep 2024 10:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 07:29:14.271425
- Title: General-purpose Clothes Manipulation with Semantic Keypoints
- Title(参考訳): 意味的キーポイントを用いた汎用衣服操作
- Authors: Yuhong Deng, David Hsu,
- Abstract要約: 衣服の操作は家庭用ロボットにとって重要なスキルである。
近年では、折りたたみ、平ら化、吊り下げなど、作業固有の衣服の操作が進歩している。
左スリーブ'のような特定の特徴を意味キーポイントとして識別することを提案する。
汎用的な CLothes mAnipulation with Semantic KeyPoints (CLASP) のための大規模言語モデル (LLM) を用いた階層型学習フレームワークを開発する。
- 参考スコア(独自算出の注目度): 17.23980132793002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clothes manipulation is a critical skill for household robots. Recent advancements have been made in task-specific clothes manipulation, such as folding, flattening, and hanging. However, due to clothes' complex geometries and deformability, creating a general-purpose robot system that can manipulate a diverse range of clothes in many ways remains challenging. Since clothes are typically designed with specific structures, we propose identifying these specific features like ``left sleeve'' as semantic keypoints. Semantic keypoints can provide semantic cues for task planning and geometric cues for low-level action generation. With this insight, we develop a hierarchical learning framework using the large language model (LLM) for general-purpose CLothes mAnipulation with Semantic keyPoints (CLASP). Extensive simulation experiments show that CLASP outperforms baseline methods on both seen and unseen tasks across various clothes manipulation tasks. Real-world experiments show that CLASP can be directly deployed in the real world and applied to a wide variety of clothes.
- Abstract(参考訳): 衣服の操作は家庭用ロボットにとって重要なスキルである。
近年では、折りたたみ、平ら化、吊り下げなど、作業固有の衣服の操作が進歩している。
しかし, 衣服の複雑な地形や変形性から, 多様な衣服をさまざまな方法で操作できる汎用ロボットシステムの構築は, 依然として困難である。
衣服は通常、特定の構造で設計されているので、'`left sleeve'のような特定の特徴を意味キーポイントとして識別することを提案する。
セマンティックキーポイントは、タスク計画のためのセマンティックキューと、低レベルのアクション生成のための幾何学的キューを提供することができる。
そこで本研究では,CLothes mAnipulation with Semantic KeyPoints (CLASP) のための大規模言語モデル (LLM) を用いた階層型学習フレームワークを開発した。
大規模なシミュレーション実験により、CLASPは、さまざまな衣服操作タスクにおいて、目視タスクと目視タスクの両方において、ベースラインメソッドよりも優れていることが示された。
実世界の実験では、CLASPは現実世界に直接デプロイでき、様々な種類の服に適用できる。
関連論文リスト
- GarmentLab: A Unified Simulation and Benchmark for Garment Manipulation [12.940189262612677]
GarmentLabは、変形可能なオブジェクトと衣料品の操作のために設計された、コンテンツリッチなベンチマークと現実的なシミュレーションである。
私たちのベンチマークには、さまざまな種類の衣料品、ロボットシステム、マニピュレータが含まれています。
これらの課題に対して、最先端のビジョン手法、強化学習、模倣学習アプローチを評価した。
論文 参考訳(メタデータ) (2024-11-02T10:09:08Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence [6.9061350009929185]
ガーメント操作は、将来のロボットがホームアシストタスクを達成するために不可欠である。
我々は、あるカテゴリーの衣服が類似した構造を持つ性質を活用している。
次に, カテゴリーレベルでの衣服間のトポロジカルな(点レベルの)視覚的対応を異なる変形で学習する。
論文 参考訳(メタデータ) (2024-05-11T04:18:41Z) - Learning Reusable Manipulation Strategies [86.07442931141634]
人間は「トリック」を習得し、一般化する素晴らしい能力を実証する
本稿では,機械が1つの実演と自己演奏によってこのような操作スキルを習得することを可能にするフレームワークを提案する。
これらの学習メカニズムとサンプルは、標準的なタスクやモーションプランナにシームレスに統合できる。
論文 参考訳(メタデータ) (2023-11-06T17:35:42Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Foldsformer: Learning Sequential Multi-Step Cloth Manipulation With
Space-Time Attention [4.2940878152791555]
我々はFoldformerという新しい多段階布の操作計画フレームワークを提案する。
我々は,Foldsformerを4つの逐次的多段階操作タスクに対して実験的に評価した。
我々のアプローチは、追加のトレーニングやドメインのランダム化なしに、シミュレーションから実世界へ移行することができる。
論文 参考訳(メタデータ) (2023-01-08T09:15:45Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文 参考訳(メタデータ) (2021-09-24T17:44:28Z) - ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable
Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。
ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。
ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文 参考訳(メタデータ) (2021-07-30T08:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。