論文の概要: Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty
- arxiv url: http://arxiv.org/abs/2602.18312v1
- Date: Fri, 20 Feb 2026 16:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.598284
- Title: Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty
- Title(参考訳): 行動ヤコビの罰則を用いた平滑な時変線形ポリシーの学習
- Authors: Zhaoming Xie, Kevin Karol, Jessica Hodgins,
- Abstract要約: 強化学習は、シミュレートされた文字に対する多様な動きを再現できる制御ポリシーを学習するためのフレームワークを提供する。
既存の作業は、時間とともに大きなアクション変更を罰する報酬項を追加することで、この問題に対処する。
本稿では, 自己分化による模擬状態の変化に対して, 行動変化を罰する行動ヤコビのペナルティを提案する。
- 参考スコア(独自算出の注目度): 1.8122712065585906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.
- Abstract(参考訳): 強化学習は、シミュレートされた文字に対する多様な動きを再現できる制御ポリシーを学習するためのフレームワークを提供する。
しかし、そのような政策はしばしば人間や物理的なロボットによって実現不可能な非自然の高周波信号を利用しており、現実世界の行動の表現が貧弱である。
既存の作業は、時間とともに大きなアクション変更を罰する報酬項を追加することで、この問題に対処する。
この用語は、しばしば実質的なチューニングの努力を必要とする。
本稿では, 自己分化による模擬状態の変化に対して, 行動変化を罰する行動ヤコビのペナルティを提案する。
これにより、タスク固有のチューニングなしで非現実的な高周波制御信号を効果的に排除できる。
効果はあるが、行動ヤコビアンペナルティは、従来の完全に接続されたニューラルネットワークアーキテクチャで使用する場合、計算オーバーヘッドが大幅に増加する。
これを緩和するために,リニアポリシーネット(LPN)と呼ばれる新しいアーキテクチャを導入し,トレーニング中の行動ヤコビのペナルティを計算する際の計算負担を大幅に削減する。
さらに、LPNはパラメータチューニングを必要とせず、ベースライン法よりも高速な学習収束を示し、完全に接続されたニューラルネットワークと比較して推論時間中により効率的にクエリすることができる。
本研究では,リニアポリシーネットと行動ヤコビのペナルティが組み合わさって,バックフリップや多様なパーキングスキルなど,さまざまな特徴を持つ動作模倣タスクを解きながら,スムーズな信号を生成する政策を学習できることを実証する。
最後に、本手法を用いて、腕を備えた身体四足歩行ロボットの動的動作のポリシーを作成する。
関連論文リスト
- FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens [47.735852718586216]
本稿では,階層的な周波数成分を段階的にモデル化するビジュモータポリシー学習のための新しいパラダイムを提案する。
さらに精度を高めるために,動作空間の滑らかさと連続性を維持する連続潜在表現を導入する。
我々の手法は、精度と効率の両方で既存の手法より優れている。
論文 参考訳(メタデータ) (2025-06-02T12:13:51Z) - Spectral Normalization for Lipschitz-Constrained Policies on Learning Humanoid Locomotion [12.790605143952996]
この研究は、リプシッツ連続性を強制する効率的な代替としてスペクトル正規化(SN)を提案する。
SNは、GPUメモリ使用量を大幅に削減しながら、高周波ポリシーの変動を効果的に制限する。
シミュレーションと実世界のヒューマノイドロボットを用いた実験により,SNは勾配ペナルティ法に匹敵する性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-04-11T04:12:15Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Developing Driving Strategies Efficiently: A Skill-Based Hierarchical
Reinforcement Learning Approach [0.7373617024876725]
強化学習はドライバポリシをモデル化するための一般的なツールです。
動作プリミティブを高レベルなアクションとして設計し,使用する,スキルベースの"階層駆動戦略を提案する。
論文 参考訳(メタデータ) (2023-02-04T15:09:51Z) - Dynamics-aware Adversarial Attack of Adaptive Neural Networks [75.50214601278455]
適応型ニューラルネットワークの動的対向攻撃問題について検討する。
本稿では,LGM(Leaded Gradient Method)を提案する。
我々のLGMは、動的無意識攻撃法と比較して、優れた敵攻撃性能を達成している。
論文 参考訳(メタデータ) (2022-10-15T01:32:08Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。