Fugu-MT 論文翻訳(概要): Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking

論文の概要: Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking

arxiv url: http://arxiv.org/abs/2604.01142v1
Date: Wed, 01 Apr 2026 16:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:32.105168
Title: Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking
Title（参考訳）: 境界エクストリーム探索によるロボットマニピュレーションの深部強化学習
Authors: Shaifalee Saxena, Rafael Fierro, Alexander Scheinker,
Abstract要約: 強化学習はロボット操作において高い性能を示してきたが、テスト条件がトレーニング分布と異なる場合、学習ポリシーは性能が低下することが多い。この制限は、特にプッシュ・アンド・ピック・アンド・プレイス(push and pick-and-place)のような、目標の変化、接触条件の変化、あるいはロボットのダイナミクスによって、推論時にシステムのアウト・オブ・ディストリビューションを駆動できるような、コンタクトリッチなタスクにおいて重要である。本稿では,これらの条件下での堅牢性向上を図るために,強化学習と有界極限を組み合わせたハイブリッドコントローラについて検討する。
参考スコア（独自算出の注目度）: 42.278434352794676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning has shown strong performance in robotic manipulation, but learned policies often degrade in performance when test conditions differ from the training distribution. This limitation is especially important in contact-rich tasks such as pushing and pick-and-place, where changes in goals, contact conditions, or robot dynamics can drive the system out-of-distribution at inference time. In this paper, we investigate a hybrid controller that combines reinforcement learning with bounded extremum seeking to improve robustness under such conditions. In the proposed approach, deep deterministic policy gradient (DDPG) policies are trained under standard conditions on the robotic pushing and pick-and-place tasks, and are then combined with bounded ES during deployment. The RL policy provides fast manipulation behavior, while bounded ES ensures robustness of the overall controller to time variations when operating conditions depart from those seen during training. The resulting controller is evaluated under several out-of-distribution settings, including time-varying goals and spatially varying friction patches.
Abstract（参考訳）: 強化学習はロボット操作において高い性能を示してきたが、テスト条件がトレーニング分布と異なる場合、学習ポリシーは性能が低下することが多い。この制限は、特にプッシュ・アンド・ピック・アンド・プレイス(push and pick-and-place)のような、目標の変化、接触条件の変化、あるいはロボットのダイナミクスによって、推論時にシステムのアウト・オブ・ディストリビューションを駆動できるような、コンタクトリッチなタスクにおいて重要である。本稿では,これらの条件下での堅牢性向上を図るために,強化学習と有界極限を組み合わせたハイブリッドコントローラについて検討する。提案手法では,ロボットプッシュとピック・アンド・プレイスタスクの標準的な条件下で,Deep Deterministic Policy gradient (DDPG) ポリシーをトレーニングし,デプロイ中に有界ESと組み合わせる。 RLポリシーは、高速な操作動作を提供するが、有界ESは、トレーニング中に見られる操作条件から外れた場合に、全体のコントローラの堅牢性を保証する。生成したコントローラは、時間変化の目標や空間変化の摩擦パッチを含む、いくつかのアウト・オブ・ディストリビューション設定で評価される。

関連論文リスト

ContractionPPO: Certified Reinforcement Learning via Differentiable Contraction Layers [5.690649768462432]
本稿では,手足ロボットのロバストな計画と制御のためのフレームワークであるContractionPPOを提案する。収縮PPOは、模擬閉ループ系の指数的安定性を証明する収縮計量を生成する。四足歩行におけるハードウェア実験により,強い外乱下であっても,ContractionPPOは頑健で安定な制御を可能にすることが示された。
論文参考訳（メタデータ） (2026-03-20T04:32:18Z)
GPO: Growing Policy Optimization for Legged Robot Locomotion and Whole-Body Control [20.055658070161183]
脚付きロボットのトレーニング強化学習(RL)ポリシーは、高次元連続動作、ハードウェア制約、限られた探索のために依然として困難である。成長政策最適化(GPO)は、初期における効果的な行動空間を制限するために、時間変化の作用変換を適用する訓練フレームワークである。我々は,四足歩行ロボットと六足歩行ロボットの両方でGPOを評価し,ハードウェア上でのシミュレーション学習ポリシーのゼロショット展開を含む。
論文参考訳（メタデータ） (2026-01-28T14:49:52Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning [10.138425472807368]
SATAは、動物の移動で観察される重要な生体力学的原理と適応学習機構を模倣する生体に触発されたフレームワークである。本手法は,早期探索を著しく改善し,トルクベースの政策を学習する上での課題を効果的に解決する。実験結果から,SATAは,挑戦的環境においても,顕著なコンプライアンスと安全性を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-02-18T09:25:37Z)
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文参考訳（メタデータ） (2024-02-04T15:54:03Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。