論文の概要: FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis
- arxiv url: http://arxiv.org/abs/2505.09109v1
- Date: Wed, 14 May 2025 03:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.36306
- Title: FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis
- Title(参考訳): FoldNet:キーポイント駆動アセットとデモ合成によるガーメントフォールディングのための一般化可能なクローズドループポリシーの学習
- Authors: Yuxing Chen, Bowen Xiao, He Wang,
- Abstract要約: 本稿では,ロボット衣服の折り畳みに使用できる合成衣料データセットを提案する。
我々はシミュレーションで折りたたみデモを生成し、クローズドループ模倣学習によって折りたたみポリシーを訓練する。
KG-DAggerはモデルのパフォーマンスを大幅に改善し、現実世界の成功率を25%向上させた。
- 参考スコア(独自算出の注目度): 9.22657317122778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the deformability of garments, generating a large amount of high-quality data for robotic garment manipulation tasks is highly challenging. In this paper, we present a synthetic garment dataset that can be used for robotic garment folding. We begin by constructing geometric garment templates based on keypoints and applying generative models to generate realistic texture patterns. Leveraging these keypoint annotations, we generate folding demonstrations in simulation and train folding policies via closed-loop imitation learning. To improve robustness, we propose KG-DAgger, which uses a keypoint-based strategy to generate demonstration data for recovering from failures. KG-DAgger significantly improves the model performance, boosting the real-world success rate by 25\%. After training with 15K trajectories (about 2M image-action pairs), the model achieves a 75\% success rate in the real world. Experiments in both simulation and real-world settings validate the effectiveness of our proposed framework.
- Abstract(参考訳): 衣料品の変形性のため、ロボットの衣料品操作作業のために大量の高品質なデータを生成することは極めて困難である。
本稿では,ロボット衣服の折り畳みに使用できる合成衣料データセットを提案する。
まず,キーポイントに基づく幾何学的テクスチャテンプレートを構築し,生成モデルを適用して現実的なテクスチャパターンを生成する。
これらのキーポイントアノテーションを利用することで、シミュレーションで折りたたみデモを生成し、クローズドループ模倣学習を通じて折りたたみポリシーを訓練する。
ロバスト性を改善するため,キーポイントベースの戦略を用いて故障復旧のためのデモデータを生成するKG-DAggerを提案する。
KG-DAggerはモデル性能を大幅に改善し、現実世界の成功率を25%向上させる。
15K軌道(約200万枚の画像-アクションペア)でトレーニングした後、このモデルは現実世界で75倍の成功率を達成する。
シミュレーションと実環境設定の両方の実験により,提案フレームワークの有効性が検証された。
関連論文リスト
- Real-Time Manipulation Action Recognition with a Factorized Graph Sequence Encoder [0.6437284704257459]
本稿では、リアルタイムに実行し、時間次元を効果的にスケールする新しいファクトリズグラフシーケンスネットワークを提案する。
グラフレベルの埋め込みをより集中的に抽出するための単純なプール操作であるハンドプール操作も導入する。
F1-macroスコアは14.3%,5.6%向上した。
論文 参考訳(メタデータ) (2025-03-15T07:58:25Z) - GraphGarment: Learning Garment Dynamics for Bimanual Cloth Manipulation Tasks [7.4467523788133585]
GraphGarmentは、ロボット制御入力に基づいて衣服のダイナミクスをモデル化する新しいアプローチである。
我々は,ロボットのエンドエフェクタと衣料品の相互作用をグラフで表現する。
我々は6種類の衣服を用いて4つの実験を行い、シミュレーションと実世界の両方の環境で我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-03-04T17:35:48Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Self-supervised Cloth Reconstruction via Action-conditioned Cloth
Tracking [18.288330275993328]
本研究では,実世界のメッシュ再構築モデルを微調整する自己教師型手法を提案する。
人間のアノテーションを必要とせずに再構成メッシュの品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-02-19T07:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。