Fugu-MT 論文翻訳(概要): Path Planning using Reinforcement Learning: A Policy Iteration Approach

論文の概要: Path Planning using Reinforcement Learning: A Policy Iteration Approach

arxiv url: http://arxiv.org/abs/2303.07535v1
Date: Mon, 13 Mar 2023 23:44:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 17:03:24.827492
Title: Path Planning using Reinforcement Learning: A Policy Iteration Approach
Title（参考訳）: 強化学習を用いた経路計画:政策反復アプローチ
Authors: Saumil Shivdikar, Jagannath Nirmal
Abstract要約: 本研究は、強化学習パラメータに関連する設計空間の探索に光を当てることを目的としている。本稿では,これらのパラメータを探索するプロセスの高速化を目的とした,自動チューニングに基づく順序回帰手法を提案する。当社のアプローチでは,従来の最先端技術よりも平均1.48倍のスピードアップで1.82倍のピークスピードアップを実現している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: With the impact of real-time processing being realized in the recent past, the need for efficient implementations of reinforcement learning algorithms has been on the rise. Albeit the numerous advantages of Bellman equations utilized in RL algorithms, they are not without the large search space of design parameters. This research aims to shed light on the design space exploration associated with reinforcement learning parameters, specifically that of Policy Iteration. Given the large computational expenses of fine-tuning the parameters of reinforcement learning algorithms, we propose an auto-tuner-based ordinal regression approach to accelerate the process of exploring these parameters and, in return, accelerate convergence towards an optimal policy. Our approach provides 1.82x peak speedup with an average of 1.48x speedup over the previous state-of-the-art.
Abstract（参考訳）: 近年,リアルタイム処理の影響により,強化学習アルゴリズムの効率的な実装の必要性が高まっている。ベルマン方程式の多数の利点はRLアルゴリズムで活用されているが、設計パラメータの大きな探索空間がないわけではない。本研究は, 強化学習パラメータ, 特に政策イテレーションに関連する設計空間の探索に光を当てることを目的としている。強化学習アルゴリズムのパラメータを微調整する膨大な計算コストを考えると、これらのパラメータを探索する過程を加速し、その代わりに最適なポリシーへの収束を加速する自動チューナーに基づく順序回帰手法を提案する。提案手法は,従来の最先端技術よりも平均1.48倍の高速化を実現する。

関連論文リスト

Breaking Through Barren Plateaus: Reinforcement Learning Initializations for Deep Variational Quantum Circuits [21.491246867521053]
変分量子アルゴリズム(VQA)は、短期量子デバイスを活用可能なフレームワークとして注目されている。 VQAの有効性は、システムサイズや回路深さが増加するにつれて勾配が指数関数的に減少するいわゆるバレン高原問題によって制約されることが多い。
論文参考訳（メタデータ） (2025-08-25T21:37:36Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
An Efficient Learning-based Solver Comparable to Metaheuristics for the Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。まず,方向対応型注意モデル(DaAM)を提案する。第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文参考訳（メタデータ） (2024-03-11T02:17:42Z)
Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文参考訳（メタデータ） (2023-05-09T23:51:24Z)
Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文参考訳（メタデータ） (2023-04-12T14:51:47Z)
Policy Optimization for Stochastic Shortest Path [43.2288319750466]
最短経路(SSP)問題に対する政策最適化について検討する。本研究では,有限ホライゾンモデルを厳密に一般化した目標指向強化学習モデルを提案する。ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界に達することが示されている。
論文参考訳（メタデータ） (2022-02-07T16:25:14Z)
Automatic tuning of hyper-parameters of reinforcement learning algorithms using Bayesian optimization with behavioral cloning [0.0]
強化学習(RL)では、学習エージェントが収集したデータの情報内容は多くのハイパーパラメータの設定に依存する。本研究では,ベイズ最適化を用いた自律的ハイパーパラメータ設定手法を提案する。実験は、他の手作業による調整や最適化ベースのアプローチと比較して、有望な結果を示している。
論文参考訳（メタデータ） (2021-12-15T13:10:44Z)
Controlled Deep Reinforcement Learning for Optimized Slice Placement [0.8459686722437155]
我々は、"Heuristally Assisted Deep Reinforcement Learning (HA-DRL)"と呼ばれるハイブリッドML-ヒューリスティックアプローチを提案する。提案手法は,最近のDeep Reinforcement Learning (DRL) によるスライス配置と仮想ネットワーク埋め込み (VNE) に活用されている。評価結果から,提案したHA-DRLアルゴリズムは,効率的なスライス配置ポリシーの学習を高速化できることが示された。
論文参考訳（メタデータ） (2021-08-03T14:54:00Z)
Tuning Mixed Input Hyperparameters on the Fly for Efficient Population Based AutoRL [12.135280422000635]
連続変数とカテゴリー変数の両方を最適化する新しい効率的な階層的アプローチを導入する。データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで、一般化が向上することを示す。
論文参考訳（メタデータ） (2021-06-30T08:15:59Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。 RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文参考訳（メタデータ） (2021-02-15T19:36:18Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。