論文の概要: Learning Hybrid-Control Policies for High-Precision In-Contact Manipulation Under Uncertainty
- arxiv url: http://arxiv.org/abs/2604.19677v1
- Date: Tue, 21 Apr 2026 16:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.888066
- Title: Learning Hybrid-Control Policies for High-Precision In-Contact Manipulation Under Uncertainty
- Title(参考訳): 不確実性下における高精度非接触マニピュレーションのためのハイブリッド・コントロル政策の学習
- Authors: Hunter L. Brown, Geoffrey Hollinger, Stefan Lee,
- Abstract要約: 本稿では,各制御次元において,力や位置制御をいつ使うかを選択するためのハイブリッドな位置力制御ポリシーを提案する。
MATCHはポーズ制御ポリシーを大幅に上回っている。
- 参考スコア(独自算出の注目度): 13.173545520334871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning-based control policies have been frequently demonstrated to be more effective than analytical techniques for many manipulation tasks. Commonly, these methods learn neural control policies that predict end-effector pose changes directly from observed state information. For tasks like inserting delicate connectors which induce force constraints, pose-based policies have limited explicit control over force and rely on carefully tuned low-level controllers to avoid executing damaging actions. In this work, we present hybrid position-force control policies that learn to dynamically select when to use force or position control in each control dimension. To improve learning efficiency of these policies, we introduce Mode-Aware Training for Contact Handling (MATCH) which adjusts policy action probabilities to explicitly mirror the mode selection behavior in hybrid control. We validate MATCH's learned policy effectiveness using fragile peg-in-hole tasks under extreme localization uncertainty. We find MATCH substantially outperforms pose-control policies -- solving these tasks with up to 10% higher success rates and 5x fewer peg breaks than pose-only policies under common types of state estimation error. MATCH also demonstrates data efficiency equal to pose-control policies, despite learning in a larger and more complex action space. In over 1600 sim-to-real experiments, we find MATCH succeeds twice as often as pose policies in high noise settings (33% vs.~68%) and applies ~30% less force on average compared to variable impedance policies on a Franka FR3 in laboratory conditions.
- Abstract(参考訳): 強化学習に基づく制御ポリシーは、多くの操作タスクにおいて分析技術よりも効果的であることがしばしば示されている。
一般的に、これらの手法は、観測された状態情報から直接、エンドエフェクタが変化を起こすことを予測する神経制御ポリシーを学習する。
力の制約を誘発する繊細なコネクタを挿入するといったタスクでは、ポーズベースのポリシーは力に対する明示的な制御を制限し、損傷行為の実行を避けるために注意深く調整された低レベルコントローラに依存している。
本研究では,各制御次元に力または位置制御を使用するタイミングを動的に選択することを学習するハイブリッド位置力制御ポリシーを提案する。
これらのポリシーの学習効率を向上させるために、ハイブリッド制御におけるモード選択動作を明示的に反映するようにポリシーアクションの確率を調節するモードアウェア・トレーニング・コンタクトハンドリング(MATCH)を導入する。
極端局所化の不確実性の下で脆弱なペグ・イン・ホールタスクを用いて,MATCHの学習政策の有効性を検証する。
MATCHはポーズ制御ポリシーを大幅に上回り、これらのタスクを最大10%高い成功率と5倍のペグブレークで解決する。
MATCHはまた、より大きく複雑なアクション空間での学習にもかかわらず、ポーズ制御ポリシーと同等のデータ効率を示す。
1600以上のsim-to-real実験では、MATCHは高雑音条件(33%対68%)におけるポーズポリシーの2倍の頻度で成功し、実験条件下ではフランカFR3の可変インピーダンスポリシーに比べて平均で約30%少ない力を与える。
関連論文リスト
- Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking [42.278434352794676]
強化学習はロボット操作において高い性能を示してきたが、テスト条件がトレーニング分布と異なる場合、学習ポリシーは性能が低下することが多い。
この制限は、特にプッシュ・アンド・ピック・アンド・プレイス(push and pick-and-place)のような、目標の変化、接触条件の変化、あるいはロボットのダイナミクスによって、推論時にシステムのアウト・オブ・ディストリビューションを駆動できるような、コンタクトリッチなタスクにおいて重要である。
本稿では,これらの条件下での堅牢性向上を図るために,強化学習と有界極限を組み合わせたハイブリッドコントローラについて検討する。
論文 参考訳(メタデータ) (2026-04-01T16:59:01Z) - Bootstrapped Model Predictive Control [19.652808098339644]
本稿では,ブートストラップ方式でポリシー学習を行う新しいアルゴリズムであるBootstrapped Model Predictive Control(BMPC)を紹介する。
BMPCは、MPCの専門家を模倣してネットワークポリシーを学び、その結果、MPCプロセスのガイドにこのポリシーを使用する。
本手法は,各種連続制御タスクの先行作業よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-03-24T16:46:36Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Co-learning Planning and Control Policies Constrained by Differentiable
Logic Specifications [4.12484724941528]
本稿では,高次元ロボットナビゲーションタスクを解くための新しい強化学習手法を提案する。
既存の強化学習アルゴリズムと比較して、より少ないサンプルで高品質なポリシーを訓練する。
提案手法は,高次元制御と政策アライメントによる準最適政策の回避にも有効である。
論文 参考訳(メタデータ) (2023-03-02T15:24:24Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Query-based Targeted Action-Space Adversarial Policies on Deep
Reinforcement Learning Agents [23.580682320064714]
本研究は、CPS文学における行動空間領域における標的攻撃(アクティベーション攻撃)を調査する。
対向目標に対する最適な摂動を生成するクエリベースのブラックボックス攻撃モデルが、別の強化学習問題として定式化可能であることを示す。
実験の結果,名目政策のアウトプットのみを観察する敵政策は,名目政策のインプットとアウトプットを観察する敵政策よりも強い攻撃を発生させることがわかった。
論文 参考訳(メタデータ) (2020-11-13T20:25:48Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。