論文の概要: General-purpose Clothes Manipulation with Semantic Keypoints
- arxiv url: http://arxiv.org/abs/2408.08160v3
- Date: Wed, 26 Mar 2025 06:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:04.025750
- Title: General-purpose Clothes Manipulation with Semantic Keypoints
- Title(参考訳): 意味的キーポイントを用いた汎用衣服操作
- Authors: Yuhong Deng, David Hsu,
- Abstract要約: 本稿では,CLothes mAnipulation with Semantic KeyPoints (CLASP) について述べる。
CLASPの鍵となる考え方はセマンティック・キーポイント(例えば「右肩」、「左袖」など)であり、知覚と行動の両方に相応しい空間意味表現である。
Kinovaのデュアルアームシステムによる4つの異なるタスク(折り畳み、平ら化、吊り下げ、配置)に関する実験は、CLASPのパフォーマンスを本物のロボットで確認する。
- 参考スコア(独自算出の注目度): 17.23980132793002
- License:
- Abstract: Clothes manipulation is a critical capability for household robots; yet, existing methods are often confined to specific tasks, such as folding or flattening, due to the complex high-dimensional geometry of deformable fabric. This paper presents CLothes mAnipulation with Semantic keyPoints (CLASP) for general-purpose clothes manipulation, which enables the robot to perform diverse manipulation tasks over different types of clothes. The key idea of CLASP is semantic keypoints -- e.g., "right shoulder", "left sleeve", etc. -- a sparse spatial-semantic representation that is salient for both perception and action. Semantic keypoints of clothes can be effectively extracted from depth images and are sufficient to represent a broad range of clothes manipulation policies. CLASP leverages semantic keypoints to bridge LLM-powered task planning and low-level action execution in a two-level hierarchy. Extensive simulation experiments show that CLASP outperforms baseline methods across diverse clothes types in both seen and unseen tasks. Further, experiments with a Kinova dual-arm system on four distinct tasks -- folding, flattening, hanging, and placing -- confirm CLASP's performance on a real robot.
- Abstract(参考訳): 衣服の操作は家庭用ロボットにとって重要な機能であるが、変形可能な織物の複雑な高次元形状のため、折り畳みや平ら化といった特定の作業に限られることが多い。
本稿では,CLothes mAnipulation with Semantic KeyPoints (CLASP) を汎用的な衣服操作のために提案する。
CLASPの鍵となるアイデアは、セマンティックキーポイント -- 例えば、"右肩"、"左袖"など -- であり、知覚と行動の両方に相応しい空間意味表現である。
着物の意味的キーポイントは、奥行き画像から効果的に抽出することができ、幅広い着物の操作ポリシーを表現するのに十分である。
CLASPはセマンティックキーポイントを利用して、LLMによるタスク計画と低レベルのアクション実行を2レベル階層でブリッジする。
広範囲にわたるシミュレーション実験により、CLASPは、目に見えるタスクと目に見えないタスクの両方において、さまざまな服装タイプでベースラインメソッドよりも優れていることが示された。
さらに、Kinovaのデュアルアームシステムによる4つの異なるタスク(折り畳み、平ら化、吊り下げ、配置)に関する実験では、CLASPの実際のロボットの性能が確認されている。
関連論文リスト
- GarmentLab: A Unified Simulation and Benchmark for Garment Manipulation [12.940189262612677]
GarmentLabは、変形可能なオブジェクトと衣料品の操作のために設計された、コンテンツリッチなベンチマークと現実的なシミュレーションである。
私たちのベンチマークには、さまざまな種類の衣料品、ロボットシステム、マニピュレータが含まれています。
これらの課題に対して、最先端のビジョン手法、強化学習、模倣学習アプローチを評価した。
論文 参考訳(メタデータ) (2024-11-02T10:09:08Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence [6.9061350009929185]
ガーメント操作は、将来のロボットがホームアシストタスクを達成するために不可欠である。
我々は、あるカテゴリーの衣服が類似した構造を持つ性質を活用している。
次に, カテゴリーレベルでの衣服間のトポロジカルな(点レベルの)視覚的対応を異なる変形で学習する。
論文 参考訳(メタデータ) (2024-05-11T04:18:41Z) - Learning Reusable Manipulation Strategies [86.07442931141634]
人間は「トリック」を習得し、一般化する素晴らしい能力を実証する
本稿では,機械が1つの実演と自己演奏によってこのような操作スキルを習得することを可能にするフレームワークを提案する。
これらの学習メカニズムとサンプルは、標準的なタスクやモーションプランナにシームレスに統合できる。
論文 参考訳(メタデータ) (2023-11-06T17:35:42Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Foldsformer: Learning Sequential Multi-Step Cloth Manipulation With
Space-Time Attention [4.2940878152791555]
我々はFoldformerという新しい多段階布の操作計画フレームワークを提案する。
我々は,Foldsformerを4つの逐次的多段階操作タスクに対して実験的に評価した。
我々のアプローチは、追加のトレーニングやドメインのランダム化なしに、シミュレーションから実世界へ移行することができる。
論文 参考訳(メタデータ) (2023-01-08T09:15:45Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文 参考訳(メタデータ) (2021-09-24T17:44:28Z) - ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable
Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。
ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。
ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文 参考訳(メタデータ) (2021-07-30T08:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。