論文の概要: Disentangling perception and reasoning for improving data efficiency in learning cloth manipulation without demonstrations
- arxiv url: http://arxiv.org/abs/2601.21713v1
- Date: Thu, 29 Jan 2026 13:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.857248
- Title: Disentangling perception and reasoning for improving data efficiency in learning cloth manipulation without demonstrations
- Title(参考訳): 実演を伴わない布の操作学習におけるデータ効率向上のための遠近感と推論
- Authors: Donatien Delehelle, Fei Chen, Darwin Caldwell,
- Abstract要約: 衣服の操作は日常生活においてユビキタスな作業だが、ロボット工学にとってはオープンな課題だ。
布地操作政策の展開の困難さは, 高次元状態空間, 複雑な力学, 布地が示す自己閉塞に対する高い正当性に起因する。
そこで本研究では, シミュレーション学習において, 注意深い設計選択, モデルサイズ, トレーニング時間を著しく短縮できることを示す。
- 参考スコア(独自算出の注目度): 2.2800981616160843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloth manipulation is a ubiquitous task in everyday life, but it remains an open challenge for robotics. The difficulties in developing cloth manipulation policies are attributed to the high-dimensional state space, complex dynamics, and high propensity to self-occlusion exhibited by fabrics. As analytical methods have not been able to provide robust and general manipulation policies, reinforcement learning (RL) is considered a promising approach to these problems. However, to address the large state space and complex dynamics, data-based methods usually rely on large models and long training times. The resulting computational cost significantly hampers the development and adoption of these methods. Additionally, due to the challenge of robust state estimation, garment manipulation policies often adopt an end-to-end learning approach with workspace images as input. While this approach enables a conceptually straightforward sim-to-real transfer via real-world fine-tuning, it also incurs a significant computational cost by training agents on a highly lossy representation of the environment state. This paper questions this common design choice by exploring an efficient and modular approach to RL for cloth manipulation. We show that, through careful design choices, model size and training time can be significantly reduced when learning in simulation. Furthermore, we demonstrate how the resulting simulation-trained model can be transferred to the real world. We evaluate our approach on the SoftGym benchmark and achieve significant performance improvements over available baselines on our task, while using a substantially smaller model.
- Abstract(参考訳): 衣服の操作は日常生活においてユビキタスな作業だが、ロボット工学にとってはオープンな課題だ。
布地操作政策の展開の困難さは, 高次元状態空間, 複雑な力学, 布地が示す自己閉塞に対する高い正当性に起因する。
解析手法が堅牢で汎用的な操作ポリシーを提供できないため、強化学習(RL)はこれらの問題に対する有望なアプローチと考えられる。
しかし、大きな状態空間と複雑なダイナミクスに対処するために、データベースのメソッドは通常、大きなモデルと長いトレーニング時間に依存します。
その結果、計算コストはこれらの手法の開発と採用を著しく妨げた。
さらに、ロバストな状態推定の課題のため、衣服操作ポリシーはワークスペースイメージを入力としてエンドツーエンドの学習アプローチを採用することが多い。
このアプローチは実世界の微調整を通した概念的に単純なsim-to-real転送を可能にするが、環境状態の極めて損失の少ない表現でエージェントを訓練することで、計算コストも大幅に向上する。
本稿では, 布地操作におけるRLの効率的かつモジュラーなアプローチを検討することで, この共通設計選択に疑問を呈する。
モデルのサイズやトレーニング時間は、慎重に設計することで、シミュレーションで学習するときに大幅に削減できることが示される。
さらに,シミュレーション学習モデルが実世界へどのように移行できるかを示す。
我々は、SoftGymベンチマークに対する我々のアプローチを評価し、より小さなモデルを用いて、タスク上で利用可能なベースラインよりも大幅な性能向上を実現した。
関連論文リスト
- Learning Pivoting Manipulation with Force and Vision Feedback Using Optimization-based Demonstrations [20.20969802675097]
クローズドループのピボット操作を学習するためのフレームワークを提案する。
計算効率のよい接触型軌道最適化を利用して,実演指導による深層強化学習を設計する。
また、特権訓練戦略を用いて、ロボットがピボット操作を行うことができるシミュレート・トゥ・リアル・トランスファー手法を提案する。
論文 参考訳(メタデータ) (2025-08-01T21:33:46Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。