Fugu-MT 論文翻訳(概要): General-purpose Clothes Manipulation with Semantic Keypoints

論文の概要: General-purpose Clothes Manipulation with Semantic Keypoints

arxiv url: http://arxiv.org/abs/2408.08160v1
Date: Thu, 15 Aug 2024 13:49:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 13:46:24.752415
Title: General-purpose Clothes Manipulation with Semantic Keypoints
Title（参考訳）: 意味的キーポイントを用いた汎用衣服操作
Authors: Yuhong Deng, David Hsu,
Abstract要約: 衣服操作タスクの一般化を促進するために,大規模言語モデルに基づく階層学習手法を提案する。状態表現には意味キーポイントを使用し、衣服の形状を捉え、その操作方法を概説する。
参考スコア（独自算出の注目度）: 17.23980132793002
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We have seen much recent progress in task-specific clothes manipulation, but generalizable clothes manipulation is still a challenge. Clothes manipulation requires sequential actions, making it challenging to generalize to unseen tasks. Besides, a general clothes state representation method is crucial. In this paper, we adopt language instructions to specify and decompose clothes manipulation tasks, and propose a large language model based hierarchical learning method to enhance generalization. For state representation, we use semantic keypoints to capture the geometry of clothes and outline their manipulation methods. Simulation experiments show that the proposed method outperforms the baseline method in terms of success rate and generalization for clothes manipulation tasks.
Abstract（参考訳）: 我々は、タスク固有の衣服操作の進歩を目の当たりにしてきたが、一般化可能な衣服操作は依然として課題である。衣服の操作にはシーケンシャルなアクションが必要であるため、目に見えないタスクに一般化することは困難である。また、一般的な衣服状態表現法が重要である。本稿では,衣服操作タスクを指定・分解するための言語命令を採用し,一般化を促進するための大規模言語モデルに基づく階層学習手法を提案する。状態表現には意味キーポイントを使用し、衣服の形状を捉え、その操作方法を概説する。シミュレーション実験により,服用操作タスクの成功率と一般化の観点から,提案手法がベースライン法より優れていることが示された。

関連論文リスト

CLASP: General-Purpose Clothes Manipulation with Semantic Keypoints [21.09454149734247]
本稿では,CLothes mAnipulation with Semantic KeyPoints (CLASP)について述べる。 CLASPの中核となる考え方はセマンティック・キーポイント(例えば ''left sleeve'' や ''right shoulder' など)であり、知覚と行動の両方に相応しい空間意味表現である。 CLASPはセマンティックキーポイントを使用して、ハイレベルなタスク計画と低レベルなアクション実行をブリッジする。
論文参考訳（メタデータ） (2025-07-26T15:43:25Z)
GarmentLab: A Unified Simulation and Benchmark for Garment Manipulation [12.940189262612677]
GarmentLabは、変形可能なオブジェクトと衣料品の操作のために設計された、コンテンツリッチなベンチマークと現実的なシミュレーションである。私たちのベンチマークには、さまざまな種類の衣料品、ロボットシステム、マニピュレータが含まれています。これらの課題に対して、最先端のビジョン手法、強化学習、模倣学習アプローチを評価した。
論文参考訳（メタデータ） (2024-11-02T10:09:08Z)
Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文参考訳（メタデータ） (2024-10-30T17:37:31Z)
SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-09-26T17:26:16Z)
Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-15T06:40:38Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence [6.9061350009929185]
ガーメント操作は、将来のロボットがホームアシストタスクを達成するために不可欠である。我々は、あるカテゴリーの衣服が類似した構造を持つ性質を活用している。次に, カテゴリーレベルでの衣服間のトポロジカルな(点レベルの)視覚的対応を異なる変形で学習する。
論文参考訳（メタデータ） (2024-05-11T04:18:41Z)
ManiPose: A Comprehensive Benchmark for Pose-aware Object Manipulation in Robotics [55.85916671269219]
本稿では,ポーズ変動操作タスクの研究を進めるための先駆的ベンチマークであるManiPoseを紹介する。包括的データセットは、2936の現実世界のスキャンされた剛体オブジェクトと100の明瞭なオブジェクトに対して、幾何学的に一貫性があり、操作指向の6Dポーズラベルを備えている。本ベンチマークは,ポーズ推定,ポーズ認識操作,実ロボットのスキル伝達における顕著な進歩を示す。
論文参考訳（メタデータ） (2024-03-20T07:48:32Z)
Learning Reusable Manipulation Strategies [86.07442931141634]
人間は「トリック」を習得し、一般化する素晴らしい能力を実証する本稿では,機械が1つの実演と自己演奏によってこのような操作スキルを習得することを可能にするフレームワークを提案する。これらの学習メカニズムとサンプルは、標準的なタスクやモーションプランナにシームレスに統合できる。
論文参考訳（メタデータ） (2023-11-06T17:35:42Z)
KITE: Keypoint-Conditioned Policies for Semantic Manipulation [40.63568980167196]
Keypoints + Instructions to Execution (KITE) はセマンティック操作のための2段階のフレームワークである。まず、2D画像キーポイントを通して視覚シーンに入力命令を接地する。 KITEは学習したキーポイント条件のスキルを実行し、命令を実行する。
論文参考訳（メタデータ） (2023-06-29T00:12:21Z)
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文参考訳（メタデータ） (2023-05-18T17:59:49Z)
Foldsformer: Learning Sequential Multi-Step Cloth Manipulation With Space-Time Attention [4.2940878152791555]
我々はFoldformerという新しい多段階布の操作計画フレームワークを提案する。我々は,Foldsformerを4つの逐次的多段階操作タスクに対して実験的に評価した。我々のアプローチは、追加のトレーニングやドメインのランダム化なしに、シミュレーションから実世界へ移行することができる。
論文参考訳（メタデータ） (2023-01-08T09:15:45Z)
Inferring Versatile Behavior from Demonstrations by Matching Geometric Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文参考訳（メタデータ） (2022-10-17T16:42:59Z)
USEEK: Unsupervised SE(3)-Equivariant 3D Keypoints for Generalizable Manipulation [19.423310410631085]
U.S.EEKは、カテゴリー内のインスタンス間のアライメントを楽しむ、教師なしSE(3)-同変キーポイント法である。 UEEKを手にすると、ロボットはカテゴリレベルのタスク関連オブジェクトフレームを効率的かつ説明可能な方法で推論することができる。
論文参考訳（メタデータ） (2022-09-28T06:42:29Z)
CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文参考訳（メタデータ） (2021-09-24T17:44:28Z)
ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。 ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。 ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文参考訳（メタデータ） (2021-07-30T08:20:22Z)
S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文参考訳（メタデータ） (2020-09-30T14:44:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。