論文の概要: Maneuver Decision-Making Through Proximal Policy Optimization And Monte
Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2309.08611v1
- Date: Mon, 28 Aug 2023 14:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-24 04:13:11.588216
- Title: Maneuver Decision-Making Through Proximal Policy Optimization And Monte
Carlo Tree Search
- Title(参考訳): 近位政策最適化とモンテカルロ木探索による操作的意思決定
- Authors: Zhang Hong-Peng
- Abstract要約: 真面目な意思決定はマルコフ決定過程と見なすことができ、強化学習によって対処することができる。
エージェントはトレーニングの初期段階でランダムなアクションを使用するため、報酬を得るのが難しく、効果的な意思決定方法を学ぶのが難しい。
近似ポリシー最適化とモンテカルロ木探索に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Maneuver decision-making can be regarded as a Markov decision process and can
be address by reinforcement learning. However, original reinforcement learning
algorithms can hardly solve the maneuvering decision-making problem. One reason
is that agents use random actions in the early stages of training, which makes
it difficult to get rewards and learn how to make effective decisions. To
address this issue, a method based on proximal policy optimization and Monte
Carlo tree search is proposed. The method uses proximal policy optimization to
train the agent, and regards the results of air combat as targets to train the
value network. Then, based on the value network and the visit count of each
node, Monte Carlo tree search is used to find the actions with more expected
returns than random actions, which can improve the training performance. The
ablation studies and simulation experiments indicate that agents trained by the
proposed method can make different decisions according to different states,
which demonstrates that the method can solve the maneuvering decision problem
that the original reinforcement learning algorithm cannot solve.
- Abstract(参考訳): 操作的意思決定はマルコフ決定プロセスと見なすことができ、強化学習によって対処できる。
しかし、元の強化学習アルゴリズムは、操作的意思決定問題をほとんど解決できない。
理由の1つは、エージェントがトレーニングの初期段階でランダムなアクションを使用するため、報酬を取得し、効果的な意思決定を行う方法を学ぶのが困難である。
この問題に対処するために,近位政策最適化とモンテカルロ木探索に基づく手法を提案する。
本手法では, エージェントの訓練に近接ポリシー最適化を用い, 空戦の結果を目標とみなし, 価値ネットワークを訓練する。
次に、各ノードの値ネットワークと訪問数に基づいて、モンテカルロ木探索を用いて、ランダムなアクションよりも多くの期待されたリターンを持つアクションを見つけ、トレーニング性能を向上させることができる。
アブレーション実験およびシミュレーション実験により,提案手法によって訓練されたエージェントは,異なる状態に応じて異なる決定をすることができることが示され,本手法が元の強化学習アルゴリズムでは解決できない操作的決定問題を解決できることが示されている。
関連論文リスト
- Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes [3.9311044240639568]
政策勾配 (PG) は、勾配上昇を用いたパラメータ化政策モデルを最適化する強化学習 (RL) アプローチである。
PGは非マルコフ環境でもうまく機能するが、高原やピークネスの問題に遭遇することがある。
本稿では、まず、オンラインRLのためのMCTSの適応であるモンテカルロ木学習(MCTL)を紹介し、その強みを活用するためにPGとMCTLの政策アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-02T12:21:40Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Improving Human Sequential Decision-Making with Reinforcement Learning [29.334511328067777]
トレースデータから"ベストプラクティス"を抽出できる新しい機械学習アルゴリズムを設計する。
我々のアルゴリズムは、労働者の行動と最適な政策によって取られた行動のギャップを最もうまく埋めるヒントを選択する。
実験の結果,提案アルゴリズムが生成したチップは人体の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-19T02:57:58Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - A new soft computing method for integration of expert's knowledge in
reinforcement learn-ing problems [1.11412540857944]
提案したファジィ非線形写像は、次のステップで選択される確率に設定されたアクションの各メンバをアサインする。
エージェントの欲張り行動を決定するアクション選択ポリシーを制御するために、ユーザチューニング可能なパラメータを導入する。
シミュレーションの結果,提案手法による強化学習にファジィ論理を組み込むことで,学習アルゴリズムの収束率を向上させることが示唆された。
論文 参考訳(メタデータ) (2021-06-13T20:41:29Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Automatic Discovery of Interpretable Planning Strategies [9.410583483182657]
我々は、慣用的ポリシーを単純かつ解釈可能な記述に変換する方法であるAI-Interpretを紹介する。
フローチャートとしてAI-Interpretが生み出す決定ルールを守れば、人々の計画戦略や意思決定は大幅に改善される。
論文 参考訳(メタデータ) (2020-05-24T12:24:52Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。