論文の概要: Evolutionary Optimization of Deep Learning Agents for Sparrow Mahjong
- arxiv url: http://arxiv.org/abs/2508.07522v1
- Date: Mon, 11 Aug 2025 00:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.898635
- Title: Evolutionary Optimization of Deep Learning Agents for Sparrow Mahjong
- Title(参考訳): スパロウマヒョンのための深層学習エージェントの進化的最適化
- Authors: Jim O'Connor, Derin Gezgin, Gary B. Parker,
- Abstract要約: 我々は、Sparrow MahjongでAI意思決定のためのディープラーニングベースのエージェントであるEvo-Sparrowを紹介する。
本モデルは,非決定論的かつ部分的に観察可能なゲーム環境において,ボード状態を評価し,意思決定ポリシーを最適化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Evo-Sparrow, a deep learning-based agent for AI decision-making in Sparrow Mahjong, trained by optimizing Long Short-Term Memory (LSTM) networks using Covariance Matrix Adaptation Evolution Strategy (CMA-ES). Our model evaluates board states and optimizes decision policies in a non-deterministic, partially observable game environment. Empirical analysis conducted over a significant number of simulations demonstrates that our model outperforms both random and rule-based agents, and achieves performance comparable to a Proximal Policy Optimization (PPO) baseline, indicating strong strategic play and robust policy quality. By combining deep learning with evolutionary optimization, our approach provides a computationally effective alternative to traditional reinforcement learning and gradient-based optimization methods. This research contributes to the broader field of AI game playing, demonstrating the viability of hybrid learning strategies for complex stochastic games. These findings also offer potential applications in adaptive decision-making and strategic AI development beyond Sparrow Mahjong.
- Abstract(参考訳): 本稿では,Covariance Matrix Adaptation Evolution Strategy (CMA-ES)を用いてLong Short-Term Memory (LSTM) ネットワークを最適化し,AI意思決定のためのディープラーニングエージェントであるEvo-Sparrowを紹介する。
本モデルは,非決定論的かつ部分的に観察可能なゲーム環境において,ボード状態を評価し,意思決定ポリシーを最適化する。
かなりの数のシミュレーションで実施した実証分析により、我々のモデルはランダムエージェントとルールベースエージェントの両方より優れており、PPOベースラインに匹敵する性能を示し、強力な戦略プレイとロバストなポリシー品質を示す。
深層学習と進化的最適化を組み合わせることで,従来の強化学習法や勾配に基づく最適化法に代わる計算効率の良い手法を提案する。
この研究はAIゲームプレイの幅広い分野に寄与し、複雑な確率ゲームのためのハイブリッド学習戦略の実現可能性を示す。
これらの発見はまた、Sparrow Mahjongを超えて、適応的な意思決定と戦略的AI開発に潜在的な応用を提供する。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - PAIR: A Novel Large Language Model-Guided Selection Strategy for Evolutionary Algorithms [2.3244035825657963]
本稿では、PAIR(Preference-Aligned individual Reciprocity)を紹介する。
PAIRは人間に似た配偶者選択をエミュレートし、進化的アルゴリズム(EA)におけるペアリングプロセスにインテリジェンスを導入する
論文 参考訳(メタデータ) (2025-03-05T07:45:56Z) - Preference-based opponent shaping in differentiable games [3.373994463906893]
そこで我々は,エージェントの嗜好を協調に向けて形作ることによって,戦略学習プロセスを強化するためのPBOS法を提案する。
様々な異なるゲームにおいてPBOSアルゴリズムの性能を検証する。
論文 参考訳(メタデータ) (2024-12-04T06:49:21Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文 参考訳(メタデータ) (2024-04-12T05:02:49Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - A reinforcement learning strategy for p-adaptation in high order solvers [0.0]
強化学習(Reinforcement Learning, RL)は、意思決定プロセスを自動化するための有望なアプローチである。
本稿では,高次解法を用いる場合の計算メッシュの順序を最適化するためのRL手法の適用について検討する。
論文 参考訳(メタデータ) (2023-06-14T07:01:31Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。