論文の概要: Adaptive Diffusion Terrain Generator for Autonomous Uneven Terrain Navigation
- arxiv url: http://arxiv.org/abs/2410.10766v1
- Date: Mon, 14 Oct 2024 17:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:44:46.627149
- Title: Adaptive Diffusion Terrain Generator for Autonomous Uneven Terrain Navigation
- Title(参考訳): 自律的不均一測地ナビゲーションのための適応拡散測地発電機
- Authors: Youwei Yu, Junhong Xu, Lantao Liu,
- Abstract要約: 我々はAdaptive Diffusion Terrain Generator (ADTG)を紹介する。
ADTGは、現在のポリシーに適応したより多様な複雑な地形を追加することで、既存のトレーニング環境を動的に拡張する。
ADTGにより訓練されたポリシーは、一般的なナビゲーション手法とともに、プロシージャ生成環境と自然環境の両方を上回ります。
- 参考スコア(独自算出の注目度): 10.025095580713678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free reinforcement learning has emerged as a powerful method for developing robust robot control policies capable of navigating through complex and unstructured terrains. The effectiveness of these methods hinges on two essential elements: (1) the use of massively parallel physics simulations to expedite policy training, and (2) an environment generator tasked with crafting sufficiently challenging yet attainable terrains to facilitate continuous policy improvement. Existing methods of environment generation often rely on heuristics constrained by a set of parameters, limiting the diversity and realism. In this work, we introduce the Adaptive Diffusion Terrain Generator (ADTG), a novel method that leverages Denoising Diffusion Probabilistic Models to dynamically expand existing training environments by adding more diverse and complex terrains adaptive to the current policy. ADTG guides the diffusion model's generation process through initial noise optimization, blending noise-corrupted terrains from existing training environments weighted by the policy's performance in each corresponding environment. By manipulating the noise corruption level, ADTG seamlessly transitions between generating similar terrains for policy fine-tuning and novel ones to expand training diversity. Our experiments show that the policy trained by ADTG outperforms both procedural generated and natural environments, along with popular navigation methods.
- Abstract(参考訳): モデルレス強化学習は、複雑で非構造的な地形をナビゲートできる堅牢なロボット制御ポリシーを開発するための強力な方法として登場した。
これらの手法の有効性は,(1)政策訓練の迅速化のための大規模並列物理シミュレーションの利用,(2)継続的な政策改善を促進するために十分な困難で達成可能な地形を製作する環境ジェネレータの2つの重要な要素に依存している。
既存の環境生成の方法は、しばしばパラメータの集合によって制約されたヒューリスティックに依存し、多様性とリアリズムを制限する。
本研究では,適応拡散地雷発生器(adaptive Diffusion Terrain Generator,ADTG)について紹介する。これはデノイング拡散確率モデルを利用して,現在の方針に適応したより多様な複雑な地形を追加することで,既存のトレーニング環境を動的に拡張する新しい手法である。
ADTGは、初期ノイズ最適化を通じて拡散モデルの生成過程をガイドし、各環境における政策の性能によって重み付けられた既存の訓練環境からの騒音崩壊地形をブレンドする。
ADTGは騒音の劣化レベルを操作することで、政策微調整のための同様の地形を生成することと、トレーニングの多様性を拡大する新しい地形をシームレスに遷移させる。
ADTGにより訓練されたポリシーは、一般的なナビゲーション手法とともに、プロシージャ生成環境と自然環境の両方を上回ります。
関連論文リスト
- Enabling Adaptive Agent Training in Open-Ended Simulators by Targeting Diversity [10.402855891273346]
DIVAは複雑なオープンエンドシミュレータで多様なトレーニングタスクを生成するための進化的アプローチである。
実験の結果,DIVAの複雑なパラメータ化を克服し,適応剤の挙動を訓練するユニークな能力を示す。
論文 参考訳(メタデータ) (2024-11-07T06:27:12Z) - Model-Based Reinforcement Learning for Control of Strongly-Disturbed Unsteady Aerodynamic Flows [0.0]
本稿では,モデルに基づく強化学習(MBRL)手法を提案する。
モデルの堅牢性と一般化性は、2つの異なる流れ環境で実証される。
そこで本研究では,低次環境下で学んだ政策が,フルCFD環境における効果的な制御戦略に変換されることを実証する。
論文 参考訳(メタデータ) (2024-08-26T23:21:44Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Continuous Trajectory Generation Based on Two-Stage GAN [50.55181727145379]
本稿では,道路網上の連続軌道を生成するために,新たな2段階生成対向フレームワークを提案する。
具体的には、A*アルゴリズムの人間の移動性仮説に基づいてジェネレータを構築し、人間の移動性について学習する。
判別器では, 逐次報酬と移動ヤウ報酬を組み合わせることで, 発電機の有効性を高める。
論文 参考訳(メタデータ) (2023-01-16T09:54:02Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Distributionally Robust Policy Learning via Adversarial Environment
Generation [3.42658286826597]
環境の逆生成を通したDRAGEN-分散ロバストな政策学習を提案する。
遅延変数がコスト予測的かつ現実的な環境変動を捉えた環境に対する生成モデルについて学習する。
我々は,現実的な2D/3Dオブジェクトを把握するためのシミュレーションにおいて,OoD(Out-of-Distribution)の強力な一般化を実証する。
論文 参考訳(メタデータ) (2021-07-13T19:26:34Z) - MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement
Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。
我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。
提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文 参考訳(メタデータ) (2020-07-30T20:14:42Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。