論文の概要: Reinforcement Learning Agent for a 2D Shooter Game
- arxiv url: http://arxiv.org/abs/2509.15042v1
- Date: Thu, 18 Sep 2025 15:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.287308
- Title: Reinforcement Learning Agent for a 2D Shooter Game
- Title(参考訳): 2次元シューティングゲームのための強化学習エージェント
- Authors: Thomas Ackermann, Moritz Spang, Hamza A. A. Gardi,
- Abstract要約: 複雑なゲーム環境における強化学習エージェントは、しばしばスパース報酬、トレーニング不安定性、サンプル効率の低下に悩まされる。
本稿では,オフライン模倣学習とオンライン強化学習を組み合わせた2次元シューティングゲームエージェントのハイブリッドトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents in complex game environments often suffer from sparse rewards, training instability, and poor sample efficiency. This paper presents a hybrid training approach that combines offline imitation learning with online reinforcement learning for a 2D shooter game agent. We implement a multi-head neural network with separate outputs for behavioral cloning and Q-learning, unified by shared feature extraction layers with attention mechanisms. Initial experiments using pure deep Q-Networks exhibited significant instability, with agents frequently reverting to poor policies despite occasional good performance. To address this, we developed a hybrid methodology that begins with behavioral cloning on demonstration data from rule-based agents, then transitions to reinforcement learning. Our hybrid approach achieves consistently above 70% win rate against rule-based opponents, substantially outperforming pure reinforcement learning methods which showed high variance and frequent performance degradation. The multi-head architecture enables effective knowledge transfer between learning modes while maintaining training stability. Results demonstrate that combining demonstration-based initialization with reinforcement learning optimization provides a robust solution for developing game AI agents in complex multi-agent environments where pure exploration proves insufficient.
- Abstract(参考訳): 複雑なゲーム環境における強化学習エージェントは、しばしばスパース報酬、トレーニング不安定性、サンプル効率の低下に悩まされる。
本稿では,オフライン模倣学習とオンライン強化学習を組み合わせた2次元シューティングゲームエージェントのハイブリッドトレーニング手法を提案する。
我々は,行動クローンとQラーニングを別々に出力するマルチヘッドニューラルネットワークを実装し,アテンション機構を備えた共有特徴抽出層で統一する。
純粋なQ-Networksを使った最初の実験では大きな不安定性が示され、エージェントは時折優れたパフォーマンスにもかかわらず、しばしば貧弱なポリシーに回帰した。
そこで本研究では,ルールベースエージェントの実証データから行動クローニングから始まり,強化学習に移行するハイブリッド手法を開発した。
提案手法はルールベースの対戦相手に対して70%以上の勝利率を連続的に達成し,高いばらつきと頻繁な性能劣化を示す純粋強化学習法を著しく上回った。
マルチヘッドアーキテクチャは、トレーニング安定性を維持しつつ、学習モード間の効果的な知識伝達を可能にする。
その結果、実演に基づく初期化と強化学習最適化を組み合わせることで、純粋な探索が不十分な複雑なマルチエージェント環境において、ゲームAIエージェントを開発するための堅牢なソリューションが提供されることを示した。
関連論文リスト
- Compositional Learning for Modular Multi-Agent Self-Organizing Networks [0.7122137885660501]
自己組織化されたネットワークは、複雑なパラメータの相互依存と矛盾する目標からの課題に直面します。
本研究では,CDRL(Compositional Deep Reinforcement Learning)とCPDM(Compositional Predictive Decision-Making)の2つの構成学習手法を紹介する。
モデル複雑性を低減しつつ不均一なエージェントの粒度を管理するために,セルレベルおよびセルペアレベルのエージェントを用いたモジュール型2層フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T08:33:18Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Mastering the Digital Art of War: Developing Intelligent Combat Simulation Agents for Wargaming Using Hierarchical Reinforcement Learning [0.0]
対象とする観察抽象化、マルチモデル統合、ハイブリッドAIフレームワーク、階層的な強化学習フレームワークなど、包括的なアプローチを提案する。
線形空間減衰を用いた局所的な観測抽象化は,RL問題を単純化し,計算効率を向上し,従来の大域的観測法よりも優れた有効性を示す。
我々のハイブリッドAIフレームワークは、スクリプトエージェントとRLを同期させ、高レベルの決定にRLを、低レベルのタスクにスクリプトエージェントを活用し、適応性、信頼性、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-08-23T18:50:57Z) - Multi-Agent Transfer Learning via Temporal Contrastive Learning [8.487274986507922]
本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。
このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。
論文 参考訳(メタデータ) (2024-06-03T14:42:14Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。