論文の概要: Benchmarking Smoothness and Reducing High-Frequency Oscillations in Continuous Control Policies
- arxiv url: http://arxiv.org/abs/2410.16632v1
- Date: Tue, 22 Oct 2024 02:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:27:25.109707
- Title: Benchmarking Smoothness and Reducing High-Frequency Oscillations in Continuous Control Policies
- Title(参考訳): 連続制御法におけるスムースネスのベンチマークと高周波振動低減
- Authors: Guilherme Christmann, Ying-Sheng Luo, Hanjaya Mandala, Wei-Chao Chen,
- Abstract要約: 強化学習(RL)ポリシは、特に現実世界のハードウェアにデプロイする場合、高周波の発振を引き起こす。
深部RLにおける高周波発振を緩和することを目的とした文献からの手法を同定し,分類し,比較する。
最適性能のハイブリッドは,他の手法よりも優れており,ベースラインよりも26.8%スムーズ性の向上が期待できる。
- 参考スコア(独自算出の注目度): 3.224364956163198
- License:
- Abstract: Reinforcement learning (RL) policies are prone to high-frequency oscillations, especially undesirable when deploying to hardware in the real-world. In this paper, we identify, categorize, and compare methods from the literature that aim to mitigate high-frequency oscillations in deep RL. We define two broad classes: loss regularization and architectural methods. At their core, these methods incentivize learning a smooth mapping, such that nearby states in the input space produce nearby actions in the output space. We present benchmarks in terms of policy performance and control smoothness on traditional RL environments from the Gymnasium and a complex manipulation task, as well as three robotics locomotion tasks that include deployment and evaluation with real-world hardware. Finally, we also propose hybrid methods that combine elements from both loss regularization and architectural methods. We find that the best-performing hybrid outperforms other methods, and improves control smoothness by 26.8% over the baseline, with a worst-case performance degradation of just 2.8%.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)ポリシーは、特に現実世界のハードウェアにデプロイする際には、高周波の発振が望ましくない。
本稿では,深部RLにおける高周波発振を緩和することを目的とした文献からの手法を同定し,分類し,比較する。
損失正規化とアーキテクチャメソッドの2つの幅広いクラスを定義します。
これらの手法の中核は、入力空間の近傍状態が出力空間の近傍動作を生成するような滑らかな写像の学習を動機付けるものである。
我々は,Gymnasiumの従来のRL環境のポリシー性能と制御のスムーズさ,複雑な操作タスク,および実世界のハードウェアによる展開と評価を含む3つのロボティクスのロコモーションタスクのベンチマークを提示する。
最後に,損失正規化とアーキテクチャ手法の両要素を組み合わせたハイブリッド手法を提案する。
最適性能のハイブリッドは、他の手法よりも優れており、ベースラインよりも26.8%の制御スムーズさが向上し、最悪の性能低下は2.8%に過ぎなかった。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。
本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。
実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文 参考訳(メタデータ) (2023-10-06T15:34:21Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at
Scale [64.10124092250126]
大規模ラベル付きコーパスの欠如により、ASRの性能向上のための主流の手法として、アンペアテキストとオーディオインジェクションが出現している。
本研究では,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,それらの組み合わせを制御された環境で比較する。
我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。
論文 参考訳(メタデータ) (2023-04-19T18:09:27Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Accelerating Reinforcement Learning with a
Directional-Gaussian-Smoothing Evolution Strategy [3.404507240556492]
進化戦略 (ES) は多くの困難強化学習 (RL) タスクにおいて大きな期待が持たれている。
現在のESプラクティスには2つの制限があり、そうでなければそのさらなる能力を妨げる可能性がある。
本研究では、DGS-ES(Directional Gaussian Smoothing Evolutionary Strategy)を用いてRL訓練を加速する。
DGS-ESは高いスケーラビリティを持ち、ウォールクロック時間に優れており、他の一般的な政策勾配やESアプローチと競合する報酬スコアが得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T01:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。