論文の概要: Neural-Network-Driven Reward Prediction as a Heuristic: Advancing Q-Learning for Mobile Robot Path Planning
- arxiv url: http://arxiv.org/abs/2412.12650v1
- Date: Tue, 17 Dec 2024 08:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:03.063066
- Title: Neural-Network-Driven Reward Prediction as a Heuristic: Advancing Q-Learning for Mobile Robot Path Planning
- Title(参考訳): ヒューリスティックなニューラルネットワーク駆動リワード予測:移動ロボット経路計画のためのQラーニングの改善
- Authors: Yiming Ji, Kaijie Yun, Yang Liu, Zongwu Xie, Hong Liu,
- Abstract要約: ニューラルネットワークの出力を情報として利用し,Q-ラーニングの収束過程を高速化するNDR-QL法を提案する。
提案手法は,ベースラインQ-ラーニング手法の収束速度を90%向上し,パス品質の指標において従来改善されていたQ-ラーニング手法を上回っている。
- 参考スコア(独自算出の注目度): 10.066546417538786
- License:
- Abstract: Q-learning is a widely used reinforcement learning technique for solving path planning problems. It primarily involves the interaction between an agent and its environment, enabling the agent to learn an optimal strategy that maximizes cumulative rewards. Although many studies have reported the effectiveness of Q-learning, it still faces slow convergence issues in practical applications. To address this issue, we propose the NDR-QL method, which utilizes neural network outputs as heuristic information to accelerate the convergence process of Q-learning. Specifically, we improved the dual-output neural network model by introducing a start-end channel separation mechanism and enhancing the feature fusion process. After training, the proposed NDR model can output a narrowly focused optimal probability distribution, referred to as the guideline, and a broadly distributed suboptimal distribution, referred to as the region. Subsequently, based on the guideline prediction, we calculate the continuous reward function for the Q-learning method, and based on the region prediction, we initialize the Q-table with a bias. We conducted training, validation, and path planning simulation experiments on public datasets. The results indicate that the NDR model outperforms previous methods by up to 5\% in prediction accuracy. Furthermore, the proposed NDR-QL method improves the convergence speed of the baseline Q-learning method by 90\% and also surpasses the previously improved Q-learning methods in path quality metrics.
- Abstract(参考訳): Q-ラーニングは経路計画問題の解決に広く用いられている強化学習手法である。
主にエージェントと環境の間の相互作用を伴い、エージェントは累積報酬を最大化する最適な戦略を学ぶことができる。
多くの研究がQ-ラーニングの有効性を報告しているが、実際的な応用では収束が遅い問題に直面している。
この問題に対処するため,ニューラルネットワークをヒューリスティック情報として利用し,Q-ラーニングの収束過程を高速化するNDR-QL法を提案する。
具体的には、終末チャネル分離機構を導入し、特徴融合プロセスを強化することにより、二重出力ニューラルネットワークモデルを改善した。
学習後、提案したNDRモデルは、ガイドラインと呼ばれる狭い焦点を絞った最適確率分布と、この領域と呼ばれる広範囲に分散された準最適分布を出力できる。
そして,このガイドラインに基づいて,Q-ラーニング手法の連続報酬関数を計算し,その領域予測に基づいて,Q-tableをバイアスで初期化する。
我々は、公開データセット上でのトレーニング、検証、経路計画シミュレーション実験を行った。
その結果,NDRモデルは予測精度を最大5倍に向上することがわかった。
さらに,NDR-QL法はベースラインQ-ラーニング手法の収束速度を90%向上し,パス品質指標において従来改善されていたQ-ラーニング手法を上回っている。
関連論文リスト
- Empowering Bayesian Neural Networks with Functional Priors through Anchored Ensembling for Mechanics Surrogate Modeling Applications [0.0]
本稿では,関数空間で利用可能な事前情報を統合するアンカー型アンサンブルに基づく新しいBNNトレーニング手法を提案する。
アンカーリング方式は, NNパラメータ間の低ランク相関を利用して, 事前学習から関数前の実現まで学習する。
また,既存のBNN実装では無視されることが多いNN重み間の相関が,関数空間とパラメータ空間の事前知識を適切に伝達する上で重要であることを示す。
論文 参考訳(メタデータ) (2024-09-08T22:27:50Z) - Neural Attention: Enhancing QKV Calculation in Self-Attention Mechanism
with Neural Networks [25.75678339426731]
本稿では,QKVを用いたニューラルネットワークの計算手法について検討する。
我々は、IWSLT 2017ドイツ語翻訳タスクデータセットの実験を行い、従来の手法で近似した。
また,Wikitext-103データセットを用いてRobertaモデルをトレーニングする際の優位性を示した。
論文 参考訳(メタデータ) (2023-10-17T17:06:26Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文 参考訳(メタデータ) (2021-06-21T13:11:52Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。