論文の概要: Constrained Sampling to Guide Universal Manipulation RL
- arxiv url: http://arxiv.org/abs/2602.08557v1
- Date: Mon, 09 Feb 2026 11:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.284019
- Title: Constrained Sampling to Guide Universal Manipulation RL
- Title(参考訳): ユニバーサルマニピュレーションRLガイドのための制約サンプリング
- Authors: Marc Toussaint, Cornelius V. Braun, Eckart Cobo-Briesewitz, Sayantan Auddy, Armand Jordana, Justin Carpentier,
- Abstract要約: 接触リッチな操作設定において、モデルベースの解法を用いて、任意の実行可能な開始状態から実行可能な目標へ制御するためのユニバーサルポリシーのトレーニングをガイドする方法を検討する。
我々のアプローチは、そのような操作の間、実現可能で潜在的にビジター化された状態の低次元多様体の考え方に基づいており、この多様体からサンプルラでRLを導出する。
モデルベースの制約解法を用いて、実現可能な構成を効率的にサンプリングし、それらを利用して、ユニバーサルな(ゴール条件付き)操作ポリシーのためのRLをガイドするサンプルガイドRLを提案する。
- 参考スコア(独自算出の注目度): 16.940421615322432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider how model-based solvers can be leveraged to guide training of a universal policy to control from any feasible start state to any feasible goal in a contact-rich manipulation setting. While Reinforcement Learning (RL) has demonstrated its strength in such settings, it may struggle to sufficiently explore and discover complex manipulation strategies, especially in sparse-reward settings. Our approach is based on the idea of a lower-dimensional manifold of feasible, likely-visited states during such manipulation and to guide RL with a sampler from this manifold. We propose Sample-Guided RL, which uses model-based constraint solvers to efficiently sample feasible configurations (satisfying differentiable collision, contact, and force constraints) and leverage them to guide RL for universal (goal-conditioned) manipulation policies. We study using this data directly to bias state visitation, as well as using black-box optimization of open-loop trajectories between random configurations to impose a state bias and optionally add a behavior cloning loss. In a minimalistic double sphere manipulation setting, Sample-Guided RL discovers complex manipulation strategies and achieves high success rates in reaching any statically stable state. In a more challenging panda arm setting, our approach achieves a significant success rate over a near-zero baseline, and demonstrates a breadth of complex whole-body-contact manipulation strategies.
- Abstract(参考訳): 接触リッチな操作設定において、モデルベースの解法を用いて、任意の実行可能な開始状態から実行可能な目標へ制御するためのユニバーサルポリシーのトレーニングをガイドする方法を検討する。
強化学習(Reinforcement Learning, RL)はそのような環境でその強みを示してきたが、特にスパース・リワード・セッティングにおいて、複雑な操作戦略を十分に探求し発見することは困難である。
我々のアプローチは、そのような操作の間、実現可能で潜在的にビジター化された状態の低次元多様体の考え方に基づいており、この多様体からサンプルラでRLを導出する。
モデルベースの制約解法を用いて、実現可能な構成(異種衝突、接触、力の制約を満たす)を効率的にサンプリングし、それらを利用して、ユニバーサルな(ゴール条件の)操作ポリシーのためにRLをガイドするサンプルガイドRLを提案する。
このデータをバイアス状態の訪問に直接利用し、ランダムな構成間の開ループ軌道のブラックボックス最適化を用いて状態バイアスを課し、任意に振舞いクローン損失を付加する。
最小主義的な二重球操作設定では、サンプル誘導RLは複雑な操作戦略を発見し、静的に安定な状態に到達する上で高い成功率を達成する。
より困難なパンダアーム設定において,本手法はほぼゼロのベースライン上で大きな成功率を達成し,複雑な全身接触操作戦略を示す。
関連論文リスト
- Coupled Local and Global World Models for Efficient First Order RL [10.305209288475817]
本稿では,シミュレータを完全に回避し,実環境とロボットのインタラクションから学習した世界モデル内のRLポリシーをトレーニングする手法を提案する。
提案手法は,FoG法を用いて,大規模拡散モデルを用いた政策訓練を可能にする。
提案手法の有効性をPush-T操作タスクで示し, 試料効率においてPPOを著しく上回る結果を得た。
論文 参考訳(メタデータ) (2026-02-05T21:57:41Z) - On Geometric Structures for Policy Parameterization in Continuous Control [7.056222499095849]
本稿では,単位多様体上での演算による構造的利点を保った,計算効率の良いアクション生成パラダイムを提案する。
本手法は,動作を決定論的方向ベクトルと学習可能な濃度に分解し,目標方向と一様雑音との効率性を実現する。
実証的に、我々の手法は標準的な連続制御ベンチマークで最先端の手法と一致するか超えている。
論文 参考訳(メタデータ) (2025-11-11T13:32:38Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Global Reinforcement Learning: Beyond Linear and Convex Rewards via Submodular Semi-gradient Methods [42.04223902155739]
我々はGlobal RL(GRL)を導入し、報酬は局所的な状態ではなく、トラジェクトリー上でグローバルに定義される。
部分モジュラ最適化からアイデアを活用することで,GRL問題を古典的RL問題列に変換する新しいアルゴリズムスキームを提案する。
論文 参考訳(メタデータ) (2024-07-13T14:45:08Z) - Operator World Models for Reinforcement Learning [37.69110422996011]
Policy Mirror Descent (PMD) は、シーケンシャルな意思決定のための強力で理論的に健全な方法論である。
明示的なアクション値関数が利用できないため、強化学習(Reinforcement Learning, RL)には直接適用できない。
本研究では,条件付き平均埋め込みを用いた環境のワールドモデル学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-28T12:05:47Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。