論文の概要: Localized Observation Abstraction Using Piecewise Linear Spatial Decay for Reinforcement Learning in Combat Simulations
- arxiv url: http://arxiv.org/abs/2408.13328v1
- Date: Fri, 23 Aug 2024 18:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 19:59:01.990589
- Title: Localized Observation Abstraction Using Piecewise Linear Spatial Decay for Reinforcement Learning in Combat Simulations
- Title(参考訳): 線形空間減衰を用いた局所的観測抽象化によるコンバットシミュレーションの強化学習
- Authors: Scotty Black, Christian Darken,
- Abstract要約: 本稿では,一方向線形空間減衰を用いた局所的な観測抽象化手法を提案する。
この技術は状態空間を単純化し、重要な情報を保持しながら計算要求を減らす。
分析の結果,この局所的な観測アプローチは,シナリオの複雑さが増大する中で,従来型のグローバルな観測手法よりも一貫して優れていたことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the domain of combat simulations, the training and deployment of deep reinforcement learning (RL) agents still face substantial challenges due to the dynamic and intricate nature of such environments. Unfortunately, as the complexity of the scenarios and available information increases, the training time required to achieve a certain threshold of performance does not just increase, but often does so exponentially. This relationship underscores the profound impact of complexity in training RL agents. This paper introduces a novel approach that addresses this limitation in training artificial intelligence (AI) agents using RL. Traditional RL methods have been shown to struggle in these high-dimensional, dynamic environments due to real-world computational constraints and the known sample inefficiency challenges of RL. To overcome these limitations, we propose a method of localized observation abstraction using piecewise linear spatial decay. This technique simplifies the state space, reducing computational demands while still preserving essential information, thereby enhancing AI training efficiency in dynamic environments where spatial relationships are often critical. Our analysis reveals that this localized observation approach consistently outperforms the more traditional global observation approach across increasing scenario complexity levels. This paper advances the research on observation abstractions for RL, illustrating how localized observation with piecewise linear spatial decay can provide an effective solution to large state representation challenges in dynamic environments.
- Abstract(参考訳): 戦闘シミュレーションの分野では、深層強化学習(RL)エージェントの訓練と配備は、そのような環境の動的で複雑な性質のため、依然として重大な課題に直面している。
残念ながら、シナリオと利用可能な情報の複雑さが増加するにつれて、特定のパフォーマンスのしきい値を達成するのに必要なトレーニング時間は、単に増加するだけでなく、指数関数的に行われることが多い。
この関係は、RLエージェントの訓練における複雑さの重大な影響を浮き彫りにする。
本稿では、RLを用いたAIエージェントの訓練において、この制限に対処する新しいアプローチを提案する。
従来のRL法は、実世界の計算制約や、RLの既知のサンプル非効率問題により、これらの高次元動的環境において苦労することが示されている。
これらの制約を克服するために,一方向線形空間減衰を用いた局所的な観測抽象化法を提案する。
この技術は、状態空間を単純化し、重要な情報を保持しながら計算要求を減らし、空間的関係がしばしば重要となる動的環境におけるAIトレーニング効率を向上させる。
分析の結果,この局所的な観測アプローチは,シナリオの複雑さが増大する中で,従来型のグローバルな観測手法よりも一貫して優れていたことが判明した。
本稿では,RLの局所化観測が動的環境における大規模状態表現課題に対する効果的な解決法として有効であることを示すために,RLの観測抽象化の研究を前進させる。
関連論文リスト
- Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:21:10Z) - Reconciling Spatial and Temporal Abstractions for Goal Representation [0.4813333335683418]
ゴール表現は階層強化学習(HRL)アルゴリズムの性能に影響する。
近年の研究では、時間的に抽象的な環境動態を保った表現が困難な問題の解決に成功していることが示されている。
本稿では,空間的および時間的目標抽象化の両方において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:33:30Z) - Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文 参考訳(メタデータ) (2023-11-05T19:43:23Z) - End-to-end Lidar-Driven Reinforcement Learning for Autonomous Racing [0.0]
強化学習(Reinforcement Learning, RL)は、自動化とロボット工学の領域において、変革的なアプローチとして登場した。
本研究は、フィードフォワード生ライダーと速度データのみを用いて、レース環境をナビゲートするRLエージェントを開発し、訓練する。
エージェントのパフォーマンスは、実世界のレースシナリオで実験的に評価される。
論文 参考訳(メタデータ) (2023-09-01T07:03:05Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。