Fugu-MT 論文翻訳(概要): General-purpose Clothes Manipulation with Semantic Keypoints

論文の概要: General-purpose Clothes Manipulation with Semantic Keypoints

arxiv url: http://arxiv.org/abs/2408.08160v3
Date: Wed, 26 Mar 2025 06:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:46.920994
Title: General-purpose Clothes Manipulation with Semantic Keypoints
Title（参考訳）: 意味的キーポイントを用いた汎用衣服操作
Authors: Yuhong Deng, David Hsu,
Abstract要約: 本稿では,CLothes mAnipulation with Semantic KeyPoints (CLASP) について述べる。 CLASPの鍵となる考え方はセマンティック・キーポイント(例えば「右肩」、「左袖」など)であり、知覚と行動の両方に相応しい空間意味表現である。 Kinovaのデュアルアームシステムによる4つの異なるタスク(折り畳み、平ら化、吊り下げ、配置)に関する実験は、CLASPのパフォーマンスを本物のロボットで確認する。
参考スコア（独自算出の注目度）: 17.23980132793002
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Clothes manipulation is a critical capability for household robots; yet, existing methods are often confined to specific tasks, such as folding or flattening, due to the complex high-dimensional geometry of deformable fabric. This paper presents CLothes mAnipulation with Semantic keyPoints (CLASP) for general-purpose clothes manipulation, which enables the robot to perform diverse manipulation tasks over different types of clothes. The key idea of CLASP is semantic keypoints -- e.g., "right shoulder", "left sleeve", etc. -- a sparse spatial-semantic representation that is salient for both perception and action. Semantic keypoints of clothes can be effectively extracted from depth images and are sufficient to represent a broad range of clothes manipulation policies. CLASP leverages semantic keypoints to bridge LLM-powered task planning and low-level action execution in a two-level hierarchy. Extensive simulation experiments show that CLASP outperforms baseline methods across diverse clothes types in both seen and unseen tasks. Further, experiments with a Kinova dual-arm system on four distinct tasks -- folding, flattening, hanging, and placing -- confirm CLASP's performance on a real robot.
Abstract（参考訳）: 衣服の操作は家庭用ロボットにとって重要な機能であるが、変形可能な織物の複雑な高次元形状のため、折り畳みや平ら化といった特定の作業に限られることが多い。本稿では,CLothes mAnipulation with Semantic KeyPoints (CLASP) を汎用的な衣服操作のために提案する。 CLASPの鍵となるアイデアは、セマンティックキーポイント -- 例えば、"右肩"、"左袖"など -- であり、知覚と行動の両方に相応しい空間意味表現である。着物の意味的キーポイントは、奥行き画像から効果的に抽出することができ、幅広い着物の操作ポリシーを表現するのに十分である。 CLASPはセマンティックキーポイントを利用して、LLMによるタスク計画と低レベルのアクション実行を2レベル階層でブリッジする。広範囲にわたるシミュレーション実験により、CLASPは、目に見えるタスクと目に見えないタスクの両方において、さまざまな服装タイプでベースラインメソッドよりも優れていることが示された。さらに、Kinovaのデュアルアームシステムによる4つの異なるタスク(折り畳み、平ら化、吊り下げ、配置)に関する実験では、CLASPの実際のロボットの性能が確認されている。

関連論文リスト

CLASP: General-Purpose Clothes Manipulation with Semantic Keypoints [21.09454149734247]
本稿では,CLothes mAnipulation with Semantic KeyPoints (CLASP)について述べる。 CLASPの中核となる考え方はセマンティック・キーポイント(例えば ''left sleeve'' や ''right shoulder' など)であり、知覚と行動の両方に相応しい空間意味表現である。 CLASPはセマンティックキーポイントを使用して、ハイレベルなタスク計画と低レベルなアクション実行をブリッジする。
論文参考訳（メタデータ） (2025-07-26T15:43:25Z)
GarmentLab: A Unified Simulation and Benchmark for Garment Manipulation [12.940189262612677]
GarmentLabは、変形可能なオブジェクトと衣料品の操作のために設計された、コンテンツリッチなベンチマークと現実的なシミュレーションである。私たちのベンチマークには、さまざまな種類の衣料品、ロボットシステム、マニピュレータが含まれています。これらの課題に対して、最先端のビジョン手法、強化学習、模倣学習アプローチを評価した。
論文参考訳（メタデータ） (2024-11-02T10:09:08Z)
Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文参考訳（メタデータ） (2024-10-30T17:37:31Z)
SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-09-26T17:26:16Z)
Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-15T06:40:38Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence [6.9061350009929185]
ガーメント操作は、将来のロボットがホームアシストタスクを達成するために不可欠である。我々は、あるカテゴリーの衣服が類似した構造を持つ性質を活用している。次に, カテゴリーレベルでの衣服間のトポロジカルな(点レベルの)視覚的対応を異なる変形で学習する。
論文参考訳（メタデータ） (2024-05-11T04:18:41Z)
ManiPose: A Comprehensive Benchmark for Pose-aware Object Manipulation in Robotics [55.85916671269219]
本稿では,ポーズ変動操作タスクの研究を進めるための先駆的ベンチマークであるManiPoseを紹介する。包括的データセットは、2936の現実世界のスキャンされた剛体オブジェクトと100の明瞭なオブジェクトに対して、幾何学的に一貫性があり、操作指向の6Dポーズラベルを備えている。本ベンチマークは,ポーズ推定,ポーズ認識操作,実ロボットのスキル伝達における顕著な進歩を示す。
論文参考訳（メタデータ） (2024-03-20T07:48:32Z)
Learning Reusable Manipulation Strategies [86.07442931141634]
人間は「トリック」を習得し、一般化する素晴らしい能力を実証する本稿では,機械が1つの実演と自己演奏によってこのような操作スキルを習得することを可能にするフレームワークを提案する。これらの学習メカニズムとサンプルは、標準的なタスクやモーションプランナにシームレスに統合できる。
論文参考訳（メタデータ） (2023-11-06T17:35:42Z)
KITE: Keypoint-Conditioned Policies for Semantic Manipulation [40.63568980167196]
Keypoints + Instructions to Execution (KITE) はセマンティック操作のための2段階のフレームワークである。まず、2D画像キーポイントを通して視覚シーンに入力命令を接地する。 KITEは学習したキーポイント条件のスキルを実行し、命令を実行する。
論文参考訳（メタデータ） (2023-06-29T00:12:21Z)
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文参考訳（メタデータ） (2023-05-18T17:59:49Z)
Foldsformer: Learning Sequential Multi-Step Cloth Manipulation With Space-Time Attention [4.2940878152791555]
我々はFoldformerという新しい多段階布の操作計画フレームワークを提案する。我々は,Foldsformerを4つの逐次的多段階操作タスクに対して実験的に評価した。我々のアプローチは、追加のトレーニングやドメインのランダム化なしに、シミュレーションから実世界へ移行することができる。
論文参考訳（メタデータ） (2023-01-08T09:15:45Z)
Inferring Versatile Behavior from Demonstrations by Matching Geometric Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文参考訳（メタデータ） (2022-10-17T16:42:59Z)
USEEK: Unsupervised SE(3)-Equivariant 3D Keypoints for Generalizable Manipulation [19.423310410631085]
U.S.EEKは、カテゴリー内のインスタンス間のアライメントを楽しむ、教師なしSE(3)-同変キーポイント法である。 UEEKを手にすると、ロボットはカテゴリレベルのタスク関連オブジェクトフレームを効率的かつ説明可能な方法で推論することができる。
論文参考訳（メタデータ） (2022-09-28T06:42:29Z)
CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文参考訳（メタデータ） (2021-09-24T17:44:28Z)
ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。 ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。 ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文参考訳（メタデータ） (2021-07-30T08:20:22Z)
S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文参考訳（メタデータ） (2020-09-30T14:44:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。