論文の概要: Enhancing the Generalization Performance and Speed Up Training for
DRL-based Mapless Navigation
- arxiv url: http://arxiv.org/abs/2103.11686v1
- Date: Mon, 22 Mar 2021 09:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:21:16.147174
- Title: Enhancing the Generalization Performance and Speed Up Training for
DRL-based Mapless Navigation
- Title(参考訳): DRLを用いたマップレスナビゲーションにおける一般化性能の向上とスピードアップトレーニング
- Authors: Wei Zhang, Yunfeng Zhang and Ning Liu
- Abstract要約: DRLエージェントはトレーニングシナリオでうまく動作し、目に見えない現実のシナリオではうまく動作しない。
本稿では,DRLエージェントがこのような未知のシナリオでフェールする理由を論じ,LiDAR読み出しの表現がエージェントの性能劣化の鍵となる要因であることを示す。
そこで本稿では,DRLエージェントの性能向上とトレーニングの高速化を目的とした,簡易かつ効率的な入力前処理(IP)手法を提案する。
- 参考スコア(独自算出の注目度): 18.13884934663477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training an agent to navigate with DRL is data-hungry, which requires
millions of training steps. Besides, the DRL agents performing well in training
scenarios are found to perform poorly in some unseen real-world scenarios. In
this paper, we discuss why the DRL agent fails in such unseen scenarios and
find the representation of LiDAR readings is the key factor behind the agent's
performance degradation. Moreover, we propose an easy, but efficient input
pre-processing (IP) approach to accelerate training and enhance the performance
of the DRL agent in such scenarios. The proposed IP functions can highlight the
important short-distance values of laser scans and compress the range of
less-important long-distance values. Extensive comparative experiments are
carried out, and the experimental results demonstrate the high performance of
the proposed IP approaches.
- Abstract(参考訳): DRLでナビゲートするためのエージェントのトレーニングはデータハングリーであり、数百万のトレーニングステップが必要になる。
さらに、DRLエージェントはトレーニングシナリオでうまく動作し、目に見えない現実のシナリオではうまく動作しない。
本稿では,DRLエージェントがこのような未知のシナリオでフェールする理由を論じ,LiDAR読み出しの表現がエージェントの性能劣化の鍵となる要因であることを示す。
さらに,訓練を加速し,DRLエージェントの性能を高めるための,容易かつ効率的な入力前処理(IP)手法を提案する。
提案するip関数は、レーザスキャンの重要な短距離値を強調し、重要でない長距離値の範囲を圧縮することができる。
大規模な比較実験を行い,提案手法の高性能化を実証した。
関連論文リスト
- DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents [38.0441002097771]
DistRLは、モバイルデバイス制御エージェントのオンラインRLファインチューニングの効率を高めるために設計された、新しいフレームワークである。
平均して、DistRLはトレーニング効率を3倍改善し、主要な同期マルチマシンメソッドよりも2.4倍高速なトレーニングデータ収集を可能にする。
論文 参考訳(メタデータ) (2024-10-18T18:19:56Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Optimizing Deep Reinforcement Learning for American Put Option Hedging [0.0]
本稿では,Deep Reinforcement Learning (DRL) を用いたアメリカのヘッジオプションに関する既存の文献に貢献する。
その結果,学習エピソード数が多い場合の学習率や,学習エピソードが少ない場合の学習率の低下など,特定の組み合わせを避けることの重要性が強調された。
本稿では,シングルトレインと週間トレインのDRLエージェントが,取引コスト1%と3%でブラックスコールズデルタ法より優れていたことを示す。
論文 参考訳(メタデータ) (2024-05-14T13:41:44Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - How Does Forecasting Affect the Convergence of DRL Techniques in O-RAN
Slicing? [20.344810727033327]
本稿では,DRLの収束性を高めるため,新しい予測支援型DRL手法とそのO-RAN実運用ワークフローを提案する。
提案手法では, 平均初期報酬値, 収束率, 収束シナリオ数において最大22.8%, 86.3%, 300%の改善が見られた。
論文 参考訳(メタデータ) (2023-09-01T14:30:04Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Train a Real-world Local Path Planner in One Hour via Partially
Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文 参考訳(メタデータ) (2023-05-07T03:39:31Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。