論文の概要: Online Reinforcement Learning-Based Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks
- arxiv url: http://arxiv.org/abs/2501.03824v1
- Date: Tue, 07 Jan 2025 14:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:42.998883
- Title: Online Reinforcement Learning-Based Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks
- Title(参考訳): リアルタイム戦略課題に対するオンライン強化学習に基づく動的適応評価機能
- Authors: Weilong Yang, Jie Zhang, Xunyun Liu, Yanqing Ye,
- Abstract要約: リアルタイム戦略タスクの効果的な評価には、動的で予測不可能な環境に対処するための適応的なメカニズムが必要である。
本研究では,戦場状況変化に対するリアルタイム応答性評価機能の改善手法を提案する。
- 参考スコア(独自算出の注目度): 5.115170525117103
- License:
- Abstract: Effective evaluation of real-time strategy tasks requires adaptive mechanisms to cope with dynamic and unpredictable environments. This study proposes a method to improve evaluation functions for real-time responsiveness to battle-field situation changes, utilizing an online reinforcement learning-based dynam-ic weight adjustment mechanism within the real-time strategy game. Building on traditional static evaluation functions, the method employs gradient descent in online reinforcement learning to update weights dynamically, incorporating weight decay techniques to ensure stability. Additionally, the AdamW optimizer is integrated to adjust the learning rate and decay rate of online reinforcement learning in real time, further reducing the dependency on manual parameter tun-ing. Round-robin competition experiments demonstrate that this method signifi-cantly enhances the application effectiveness of the Lanchester combat model evaluation function, Simple evaluation function, and Simple Sqrt evaluation function in planning algorithms including IDABCD, IDRTMinimax, and Port-folio AI. The method achieves a notable improvement in scores, with the en-hancement becoming more pronounced as the map size increases. Furthermore, the increase in evaluation function computation time induced by this method is kept below 6% for all evaluation functions and planning algorithms. The pro-posed dynamic adaptive evaluation function demonstrates a promising approach for real-time strategy task evaluation.
- Abstract(参考訳): リアルタイム戦略タスクの効果的な評価には、動的で予測不可能な環境に対処するための適応的なメカニズムが必要である。
本研究では,リアルタイム戦略ゲームにおけるオンライン強化学習に基づくダイナムイック重み調整機構を利用して,実戦状況変化に対するリアルタイム応答性の評価機能を改善する手法を提案する。
従来の静的評価関数に基づいて、オンライン強化学習において勾配勾配を用いて重みを動的に更新し、安定性を確保するために重み減衰手法を取り入れた。
さらに、AdamWオプティマイザは、オンライン強化学習の学習率と減衰率をリアルタイムで調整するために統合されており、さらに手動パラメータのチューリングへの依存を減らすことができる。
ラウンドロビン競技実験により、この手法は、IDABCD、IDRTMinimax、Port-folio AIを含む計画アルゴリズムにおけるランチェスター戦闘モデル評価関数、簡易評価関数、簡易スカート評価関数の適用性をシグニフィカントに向上することを示した。
本手法は, 地図サイズが大きくなるにつれて, スコアの顕著な向上を実現し, エンハンスメントの精度が向上する。
さらに, この手法により誘導される評価関数計算時間の増大は, 全ての評価関数と計画アルゴリズムに対して6%以下に抑えられる。
提案した動的適応評価関数は,リアルタイム戦略タスク評価に有望なアプローチを示す。
関連論文リスト
- Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Value Summation: A Novel Scoring Function for MPC-based Model-based
Reinforcement Learning [4.473327661758546]
本稿では,MPCを用いた強化学習手法の計画モジュールのための新しいスコアリング機能を提案する。
提案手法は,値の割引和を用いた既存のMPCベースのMBRL手法の学習効率を向上させる。
提案手法は,学習効率と平均報酬率の点で,現在最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-16T20:52:39Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z) - Weighted Aggregating Stochastic Gradient Descent for Parallel Deep
Learning [8.366415386275557]
解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。
本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。
提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-04-07T23:38:29Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。