論文の概要: Physics-Informed Policy Optimization via Analytic Dynamics Regularization
- arxiv url: http://arxiv.org/abs/2603.14469v1
- Date: Sun, 15 Mar 2026 16:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.827051
- Title: Physics-Informed Policy Optimization via Analytic Dynamics Regularization
- Title(参考訳): 解析力学規則化による物理インフォームドポリシー最適化
- Authors: Namai Chandra, Liu Mohan, Zhihao Gu, Lin Wang,
- Abstract要約: 強化学習(RL)はロボット制御において高い性能を発揮している。
アクター批判法のような最先端の政策学習法は、依然として高いサンプルの複雑さに悩まされている。
我々は、物理制約を直接ニューラルネットワークの最適化にシームレスに統合する、PIPERと呼ばれる新しい物理インフォームドRLフレームワークを導入する。
- 参考スコア(独自算出の注目度): 5.537513058221965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has achieved strong performance in robotic control; however, state-of-the-art policy learning methods, such as actor-critic methods, still suffer from high sample complexity and often produce physically inconsistent actions. This limitation stems from neural policies implicitly rediscovering complex physics from data alone, despite accurate dynamics models being readily available in simulators. In this paper, we introduce a novel physics-informed RL framework, called PIPER, that seamlessly integrates physical constraints directly into neural policy optimization with analytical soft physics constraints. At the core of our method is the integration of a differentiable Lagrangian residual as a regularization term within the actor's objective. This residual, extracted from a robot's simulator description, subtly biases policy updates towards dynamically consistent solutions. Crucially, this physics integration is realized through an additional loss term during policy optimization, requiring no alterations to existing simulators or core RL algorithms. Extensive experiments demonstrate that our method significantly improves learning efficiency, stability, and control accuracy, establishing a new paradigm for efficient and physically consistent robotic control.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, ロボット制御において高い性能を達成しているが, アクター・クリティカルな手法のような最先端の政策学習手法は, 依然として高いサンプリング複雑性に悩まされており, 物理的に矛盾する動作を生じさせることが多い。
この制限は、シミュレータで容易に利用できる正確な力学モデルにもかかわらず、暗黙的にデータから複雑な物理を再発見することに由来する。
本稿では,解析的ソフト物理制約を用いたニューラルネットワーク最適化に直接物理制約をシームレスに統合する新しい物理インフォームドRLフレームワークPIPERを紹介する。
我々の手法の核心は、アクターの目的の中に正規化用語としての微分可能なラグランジアン残基の統合である。
この残余は、ロボットのシミュレータ記述から抽出され、ポリシー更新を動的に一貫したソリューションに微妙にバイアスする。
重要なことに、この物理積分はポリシー最適化中に損失項を追加することで実現され、既存のシミュレータやコアRLアルゴリズムを変更する必要はない。
大規模な実験により,本手法は学習効率,安定性,制御精度を大幅に向上し,効率的で物理的に一貫したロボット制御のための新しいパラダイムが確立された。
関連論文リスト
- Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Stochastic Online Optimization for Cyber-Physical and Robotic Systems [9.392372266209103]
本稿では,サイバー物理・ロボットシステムの文脈におけるプログラミング問題の解決のための新しいオンラインフレームワークを提案する。
我々の問題定式化制約は、一般に連続状態とアクション空間が非線形であるサイバー物理システムの進化をモデル化する。
我々は, 力学の粗い推定でも, アルゴリズムの収束性を大幅に向上させることができることを示した。
論文 参考訳(メタデータ) (2024-04-08T09:08:59Z) - Imitation Learning via Differentiable Physics [26.356669151969953]
逆強化学習(IRL)のような模倣学習(IL)の手法は通常、ダブルループトレーニングプロセスを持つ。
両ループ設計を廃止した新しいIL法,すなわち、微分可能物理学によるImitation Learningを提案する。
ILDは最終性能、収束速度、安定性の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-06-10T04:54:32Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Automatic Differentiation and Continuous Sensitivity Analysis of Rigid
Body Dynamics [15.565726546970678]
剛体力学のための微分可能な物理シミュレータを提案する。
軌道最適化の文脈では、閉ループモデル予測制御アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-01-22T03:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。