論文の概要: General-purpose Clothes Manipulation with Semantic Keypoints
- arxiv url: http://arxiv.org/abs/2408.08160v1
- Date: Thu, 15 Aug 2024 13:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:46:24.752415
- Title: General-purpose Clothes Manipulation with Semantic Keypoints
- Title(参考訳): 意味的キーポイントを用いた汎用衣服操作
- Authors: Yuhong Deng, David Hsu,
- Abstract要約: 衣服操作タスクの一般化を促進するために,大規模言語モデルに基づく階層学習手法を提案する。
状態表現には意味キーポイントを使用し、衣服の形状を捉え、その操作方法を概説する。
- 参考スコア(独自算出の注目度): 17.23980132793002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have seen much recent progress in task-specific clothes manipulation, but generalizable clothes manipulation is still a challenge. Clothes manipulation requires sequential actions, making it challenging to generalize to unseen tasks. Besides, a general clothes state representation method is crucial. In this paper, we adopt language instructions to specify and decompose clothes manipulation tasks, and propose a large language model based hierarchical learning method to enhance generalization. For state representation, we use semantic keypoints to capture the geometry of clothes and outline their manipulation methods. Simulation experiments show that the proposed method outperforms the baseline method in terms of success rate and generalization for clothes manipulation tasks.
- Abstract(参考訳): 我々は、タスク固有の衣服操作の進歩を目の当たりにしてきたが、一般化可能な衣服操作は依然として課題である。
衣服の操作にはシーケンシャルなアクションが必要であるため、目に見えないタスクに一般化することは困難である。
また、一般的な衣服状態表現法が重要である。
本稿では,衣服操作タスクを指定・分解するための言語命令を採用し,一般化を促進するための大規模言語モデルに基づく階層学習手法を提案する。
状態表現には意味キーポイントを使用し、衣服の形状を捉え、その操作方法を概説する。
シミュレーション実験により,服用操作タスクの成功率と一般化の観点から,提案手法がベースライン法より優れていることが示された。
関連論文リスト
- GarmentLab: A Unified Simulation and Benchmark for Garment Manipulation [12.940189262612677]
GarmentLabは、変形可能なオブジェクトと衣料品の操作のために設計された、コンテンツリッチなベンチマークと現実的なシミュレーションである。
私たちのベンチマークには、さまざまな種類の衣料品、ロボットシステム、マニピュレータが含まれています。
これらの課題に対して、最先端のビジョン手法、強化学習、模倣学習アプローチを評価した。
論文 参考訳(メタデータ) (2024-11-02T10:09:08Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence [6.9061350009929185]
ガーメント操作は、将来のロボットがホームアシストタスクを達成するために不可欠である。
我々は、あるカテゴリーの衣服が類似した構造を持つ性質を活用している。
次に, カテゴリーレベルでの衣服間のトポロジカルな(点レベルの)視覚的対応を異なる変形で学習する。
論文 参考訳(メタデータ) (2024-05-11T04:18:41Z) - Learning Reusable Manipulation Strategies [86.07442931141634]
人間は「トリック」を習得し、一般化する素晴らしい能力を実証する
本稿では,機械が1つの実演と自己演奏によってこのような操作スキルを習得することを可能にするフレームワークを提案する。
これらの学習メカニズムとサンプルは、標準的なタスクやモーションプランナにシームレスに統合できる。
論文 参考訳(メタデータ) (2023-11-06T17:35:42Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Foldsformer: Learning Sequential Multi-Step Cloth Manipulation With
Space-Time Attention [4.2940878152791555]
我々はFoldformerという新しい多段階布の操作計画フレームワークを提案する。
我々は,Foldsformerを4つの逐次的多段階操作タスクに対して実験的に評価した。
我々のアプローチは、追加のトレーニングやドメインのランダム化なしに、シミュレーションから実世界へ移行することができる。
論文 参考訳(メタデータ) (2023-01-08T09:15:45Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文 参考訳(メタデータ) (2021-09-24T17:44:28Z) - ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable
Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。
ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。
ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文 参考訳(メタデータ) (2021-07-30T08:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。