論文の概要: Foldsformer: Learning Sequential Multi-Step Cloth Manipulation With
Space-Time Attention
- arxiv url: http://arxiv.org/abs/2301.03003v1
- Date: Sun, 8 Jan 2023 09:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 18:05:53.956239
- Title: Foldsformer: Learning Sequential Multi-Step Cloth Manipulation With
Space-Time Attention
- Title(参考訳): Foldsformer: 空間的注意による連続的なマルチステップ衣服操作の学習
- Authors: Kai Mo, Chongkun Xia, Xueqian Wang, Yuhong Deng, Xuehai Gao, Bin Liang
- Abstract要約: 我々はFoldformerという新しい多段階布の操作計画フレームワークを提案する。
我々は,Foldsformerを4つの逐次的多段階操作タスクに対して実験的に評価した。
我々のアプローチは、追加のトレーニングやドメインのランダム化なしに、シミュレーションから実世界へ移行することができる。
- 参考スコア(独自算出の注目度): 4.2940878152791555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential multi-step cloth manipulation is a challenging problem in robotic
manipulation, requiring a robot to perceive the cloth state and plan a sequence
of chained actions leading to the desired state. Most previous works address
this problem in a goal-conditioned way, and goal observation must be given for
each specific task and cloth configuration, which is not practical and
efficient. Thus, we present a novel multi-step cloth manipulation planning
framework named Foldformer. Foldformer can complete similar tasks with only a
general demonstration and utilize a space-time attention mechanism to capture
the instruction information behind this demonstration. We experimentally
evaluate Foldsformer on four representative sequential multi-step manipulation
tasks and show that Foldsformer significantly outperforms state-of-the-art
approaches in simulation. Foldformer can complete multi-step cloth manipulation
tasks even when configurations of the cloth (e.g., size and pose) vary from
configurations in the general demonstrations. Furthermore, our approach can be
transferred from simulation to the real world without additional training or
domain randomization. Despite training on rectangular clothes, we also show
that our approach can generalize to unseen cloth shapes (T-shirts and shorts).
Videos and source code are available at:
https://sites.google.com/view/foldsformer.
- Abstract(参考訳): 連続的なマルチステップの布操作はロボット操作において難しい問題であり、ロボットは布の状態を認識し、望ましい状態につながる一連の連鎖した動作を計画する必要がある。
以前のほとんどの作品は目標条件の方法でこの問題に対処しており、特定のタスクと布の構成ごとに目標の観察を行う必要があるが、実用的で効率的ではない。
そこで本稿では, foldformer という,新しいマルチステップ布操作計画フレームワークを提案する。
Foldformerは、一般的なデモンストレーションだけで同様のタスクを完了し、時空の注意機構を使用して、このデモの背後にある命令情報をキャプチャすることができる。
本稿では,4つの逐次的マルチステップ操作タスクにおける foldsformer の評価実験を行い,foldsformer がシミュレーションの最先端手法を著しく上回っていることを示す。
Foldformerは、布の構成(サイズやポーズなど)が一般的なデモンストレーションの構成と異なる場合でも、マルチステップの布操作タスクを完了させることができる。
さらに,本手法は,追加のトレーニングやドメインランダム化を行うことなく,シミュレーションから実世界へ移行することができる。
長方形の衣服のトレーニングにも拘わらず,我々のアプローチは着ていない布の形状(tシャツとショートパンツ)に一般化できることも示します。
ビデオとソースコードはhttps://sites.google.com/view/foldsformer.com/で入手できる。
関連論文リスト
- SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Make a Donut: Hierarchical EMD-Space Planning for Zero-Shot Deformable Manipulation with Tools [14.069149456110676]
本研究では,複雑な長期タスクに対処可能な実証自由階層型計画手法を提案する。
我々は,大規模言語モデル (LLMs) を用いて,特定のタスクに対応する高レベルステージ・バイ・ステージ・プランを記述している。
我々は、実世界のロボットプラットフォームの実験的な試行で、我々のアプローチをさらに裏付ける。
論文 参考訳(メタデータ) (2023-11-05T22:43:29Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - DexDeform: Dexterous Deformable Object Manipulation with Human
Demonstrations and Differentiable Physics [97.75188532559952]
人間の実演から巧妙な操作スキルを抽象化する原理的枠組みを提案する。
次に、イマジネーションにおけるアクション抽象化を計画する上で、デモを使ってスキルモデルをトレーニングします。
提案手法の有効性を評価するために,6つの難解な変形可能なオブジェクト操作タスクの組を導入する。
論文 参考訳(メタデータ) (2023-03-27T17:59:49Z) - Learning Fabric Manipulation in the Real World with Human Videos [10.608723220309678]
ファブリック操作は、巨大な状態空間と複雑な力学のため、ロボット工学における長年の課題である。
従来の手法のほとんどはシミュレーションに大きく依存しており、依然として変形可能な物体の大きなsim-to-realギャップによって制限されている。
有望な代替手段は、人間がタスクを実行するのを見ることから直接布地操作を学ぶことである。
論文 参考訳(メタデータ) (2022-11-05T07:09:15Z) - A Differentiable Recipe for Learning Visual Non-Prehensile Planar
Manipulation [63.1610540170754]
視覚的非包括的平面操作の問題に焦点をあてる。
本稿では,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャを提案する。
モジュラーで完全に差別化可能なアーキテクチャは、目に見えないオブジェクトやモーションの学習専用手法よりも優れていることが分かりました。
論文 参考訳(メタデータ) (2021-11-09T18:39:45Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Encoding cloth manipulations using a graph of states and transitions [8.778914180886835]
本稿では,布の操作状態の汎用的,コンパクトかつ簡易な表現を提案する。
タスクを達成するためのすべての戦略をエンコードするクラス操作グラフも定義しています。
論文 参考訳(メタデータ) (2020-09-30T13:56:13Z) - Learning Dense Visual Correspondences in Simulation to Smooth and Fold
Real Fabrics [35.84249614544505]
我々は、異なる構成の変形可能な織物の視覚的対応をシミュレーションで学習する。
学習した対応は、新しいファブリック構成で幾何学的に等価な動作を計算するのに使うことができる。
また、さまざまな色、大きさ、形状の織物についても、その結果が示唆されている。
論文 参考訳(メタデータ) (2020-03-28T04:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。