論文の概要: Elevating Styled Mahjong Agents with Learning from Demonstration
- arxiv url: http://arxiv.org/abs/2506.16995v1
- Date: Fri, 20 Jun 2025 13:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.467937
- Title: Elevating Styled Mahjong Agents with Learning from Demonstration
- Title(参考訳): デモから学ぶマヒョンエージェントの高次化
- Authors: Lingfeng Li, Yunlong Lu, Yongyi Wang, Wenxin Li,
- Abstract要約: ゲーム内のさまざまなボットがゲームプレイ体験を豊かにし、リプレイ可能性を高める。
ゲーム人工知能の最近の進歩は、主にボットの能力向上に焦点が当てられている。
提案アルゴリズムは, 近似ポリシ最適化アルゴリズムの最小限の修正しか必要としない。
- 参考スコア(独自算出の注目度): 0.8678250057211367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A wide variety of bots in games enriches the gameplay experience and enhances replayability. Recent advancements in game artificial intelligence have predominantly focused on improving the proficiency of bots. Nevertheless, developing highly competent bots with a wide range of distinct play styles remains a relatively under-explored area. We select the Mahjong game environment as a case study. The high degree of randomness inherent in the Mahjong game and the prevalence of out-of-distribution states lead to suboptimal performance of existing offline learning and Learning-from-Demonstration (LfD) algorithms. In this paper, we leverage the gameplay histories of existing Mahjong agents and put forward a novel LfD algorithm that necessitates only minimal modifications to the Proximal Policy Optimization algorithm. The comprehensive empirical results illustrate that our proposed method not only significantly enhances the proficiency of the agents but also effectively preserves their unique play styles.
- Abstract(参考訳): ゲーム内のさまざまなボットがゲームプレイ体験を豊かにし、リプレイ可能性を高める。
ゲーム人工知能の最近の進歩は、主にボットの能力向上に焦点が当てられている。
それでも、幅広い異なるプレイスタイルを持つ高度な能力を持つボットを開発することは、まだ探索されていない領域である。
本稿では,Mahjongゲーム環境をケーススタディとして選択する。
マヒョンゲームに固有のランダム性の高さと分布外状態の出現により、既存のオフライン学習とLfDアルゴリズムの準最適性能がもたらされる。
本稿では,既存のMahjongエージェントのゲームプレイ履歴を活用し,最小限の変更しか必要としない新しいLfDアルゴリズムを提案する。
実験結果から,提案手法はエージェントの習熟度を著しく向上するだけでなく,独自の演奏スタイルを効果的に維持することを示す。
関連論文リスト
- Mxplainer: Explain and Learn Insights by Imitating Mahjong Agents [0.8088999193162028]
本稿では,ブラックボックスエージェントのパラメータを学習するために,等価ニューラルネットワークに変換可能なパラメータ化探索アルゴリズムであるMxplainerを紹介する。
AIと人間プレイヤーのデータを用いて行われた実験は、学習されたパラメータがエージェントの特性やプレイスタイルに対する人間の理解可能な洞察を提供することを示した。
論文 参考訳(メタデータ) (2025-06-17T07:07:13Z) - Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Building a 3-Player Mahjong AI using Deep Reinforcement Learning [9.603486077267693]
我々は,深層強化学習を用いたサンマのAIであるMeowjongを紹介する。
Meowjongのモデルは、4人のMahjongのAIに匹敵するテスト精度を達成する。
Sanmaで最初のAIである私たちは、Meowjongがこのゲームの最先端技術であると主張している。
論文 参考訳(メタデータ) (2022-02-25T17:41:43Z) - A Ranking Game for Imitation Learning [22.028680861819215]
模倣を、$textitpolicy$と$textitreward$関数の間の2プレイヤーランキングベースのStackelbergゲームとして扱う。
このゲームは、オフラインの好みから学習する逆強化学習(IRL)法と方法の両方の多くのサブセットを含んでいる。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
論文 参考訳(メタデータ) (2022-02-07T19:38:22Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - On the Power of Refined Skat Selection [1.3706331473063877]
Skatは魅力的なカードゲームで、現代のAIシステムの本質的な課題の多くを示しています。
洗練されたskat評価機能に基づくハードエキスパートルールとスコアリング関数を提案する。
実験では、精巧なskat pingアルゴリズムがボットの演奏性能に与える影響を強調した。
論文 参考訳(メタデータ) (2021-04-07T08:54:58Z) - Enhanced Rolling Horizon Evolution Algorithm with Opponent Model
Learning: Results for the Fighting Game AI Competition [9.75720700239984]
本稿では,RHEA(Rolling Horizon Evolution Algorithm)と対向モデル学習を組み合わせた新しいアルゴリズムを提案する。
2019年の競争で上位5つのボットのうち、モンテカルロツリーサーチ(MCTS)を使用しないボットは、ポリシーグラディエントベースの対戦モデルによるボットのみである。
論文 参考訳(メタデータ) (2020-03-31T04:44:33Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。