論文の概要: Robust Quadruped Locomotion via Evolutionary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.07224v1
- Date: Wed, 08 Apr 2026 15:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.617789
- Title: Robust Quadruped Locomotion via Evolutionary Reinforcement Learning
- Title(参考訳): 進化的強化学習によるロバスト四足歩行
- Authors: Brian McAteer, Karl Mason,
- Abstract要約: 本研究は,シミュレートされた歩行課題における4つの方法を評価する。
全てのエージェントは平らな地形で訓練され、後にこの領域と訓練中に遭遇しない荒い地形の両方で試験される。
CEM-TD3は19574.33の平均的な報酬で最強の転送性能を記録した。
- 参考スコア(独自算出の注目度): 1.4610038284393168
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep reinforcement learning has recently achieved strong results in quadrupedal locomotion, yet policies trained in simulation often fail to transfer when the environment changes. Evolutionary reinforcement learning aims to address this limitation by combining gradient-based policy optimisation with population-driven exploration. This work evaluates four methods on a simulated walking task: DDPG, TD3, and two Cross-Entropy-based variants CEM-DDPG and CEM-TD3. All agents are trained on flat terrain and later tested both on this domain and on a rough terrain not encountered during training. TD3 performs best among the standard deep RL baselines on flat ground with a mean reward of 5927.26, while CEM-TD3 achieves the highest rewards overall during training and evaluation 17611.41. Under the rough-terrain transfer test, performance of the deep RL methods drops sharply. DDPG achieves -1016.32 and TD3 achieves -99.73, whereas the evolutionary variants retain much of their capability. CEM-TD3 records the strongest transfer performance with a mean reward of 19574.33. These findings suggest that incorporating evolutionary search can reduce overfitting and improve policy robustness in locomotion tasks, particularly when deployment conditions differ from those seen during training.
- Abstract(参考訳): 深層強化学習は、最近四足歩行において強い成果を上げているが、シミュレーションで訓練されたポリシーは環境変化時に伝達に失敗することが多い。
進化的強化学習は、勾配に基づく政策最適化と人口主導の探索を組み合わせることで、この制限に対処することを目的としている。
本研究は, DDPG, TD3およびCEM-DDPGとCEM-TD3の2つの交叉エントロピーに基づく変種を模擬歩行課題で評価する。
全てのエージェントは平らな地形で訓練され、後にこの領域と訓練中に遭遇しない荒い地形の両方で試験される。
TD3は平地における標準の深いRLベースラインの中で5927.26の報酬で最高であり、CEM-TD3は訓練と評価において17611.41の報酬で最高である。
粗地形移動試験では, 深部RL法の性能が急激に低下する。
DDPGは-1016.32、TD3は-99.73を達成する。
CEM-TD3は19574.33の平均的な報酬で最強の転送性能を記録した。
これらの結果から, 進化的探索を取り入れることで, 移動作業における過度な適合を低減し, ポリシーの堅牢性を向上させることが示唆された。
関連論文リスト
- Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking [42.278434352794676]
強化学習はロボット操作において高い性能を示してきたが、テスト条件がトレーニング分布と異なる場合、学習ポリシーは性能が低下することが多い。
この制限は、特にプッシュ・アンド・ピック・アンド・プレイス(push and pick-and-place)のような、目標の変化、接触条件の変化、あるいはロボットのダイナミクスによって、推論時にシステムのアウト・オブ・ディストリビューションを駆動できるような、コンタクトリッチなタスクにおいて重要である。
本稿では,これらの条件下での堅牢性向上を図るために,強化学習と有界極限を組み合わせたハイブリッドコントローラについて検討する。
論文 参考訳(メタデータ) (2026-04-01T16:59:01Z) - Learn for Variation: Variationally Guided AAV Trajectory Learning in Differentiable Environments [21.594684328904403]
Learn for Variation (L4V)は勾配インフォームドな軌道学習フレームワークである。
高分散スカラー報酬信号を高密度で解析的に基底化されたポリシー勾配に置き換える。
L4Vは、ミッション完了時間、平均送信速度、訓練コストにおいて、代表ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-19T12:57:42Z) - TransCurriculum: Multi-Dimensional Curriculum Learning for Fast & Stable Locomotion [50.54752207285298]
TransCurriculumは、アジャイル四足歩行のためのトランスフォーマーベースの多次元カリキュラム学習アプローチである。
シミュレーションでは,Unitree Go1ロボットに対するアプローチを検証し,Go1ハードウェア上でゼロショットでデプロイする。
論文 参考訳(メタデータ) (2026-03-14T23:44:42Z) - Optimizing Path Planning using Deep Reinforcement Learning for UGVs in Precision Agriculture [0.0]
本研究では, 高精度農業における無人地上車両(UGV)の経路計画を, 連続行動空間における深部強化学習(DRL)技術を用いて最適化することに焦点を当てた。
ROSとGazeboを用いた3次元環境下での実験は、動的農業シナリオのナビゲートにおける連続DRLアルゴリズムの有効性を実証した。
論文 参考訳(メタデータ) (2026-01-08T07:28:11Z) - Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。
また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-10-30T01:25:34Z) - EEPO: Exploration-Enhanced Policy Optimization via Sample-Then-Forget [48.98166525828929]
Exploration-Enhanced Policy Optimization (EEPO)は、適応的アンラーニングを伴う2段階のロールアウトによる探索を促進するフレームワークである。
EEPOは5つの推論ベンチマークでGRPOを上回っ、Qwen2.5-3Bで24.3%、Llama3.2-3B-Instructで33.0%、Qwen3-8B-Baseで10.4%という平均的な相対的な上昇を達成した。
論文 参考訳(メタデータ) (2025-10-07T12:02:03Z) - TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference [45.96968721472664]
我々は、よりスムーズで信頼性の高い報酬モデルを学ぶ方法であるTDRMを紹介する。
実験の結果、TD訓練プロセス報酬モデル(PRM)はBest-of-N(最大6.6%)とツリーサーチ(最大23.7%)でのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2025-09-18T16:14:34Z) - DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction [21.335721424944257]
ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
論文 参考訳(メタデータ) (2023-07-30T14:50:31Z) - Fast-MoCo: Boost Momentum-based Contrastive Learning with Combinatorial
Patches [75.41348688487525]
この研究は運動量に基づくコントラスト学習フレームワークを再考し、2つの拡張ビューが1つの正のペアだけを生成する非効率性を同定する。
我々は2つの拡張ビューから複数の正のペアを構築するためにパッチを利用する新しいフレームワークであるFast-MoCoを提案する。
100エポックでトレーニングされたFast-MoCoは、800エポックでトレーニングされたMoCo v3と同様、73.5%の線形評価精度を達成する。
論文 参考訳(メタデータ) (2022-07-17T16:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。