論文の概要: Self-Play Reinforcement Learning under Imperfect Information in Big 2
- arxiv url: http://arxiv.org/abs/2605.28863v1
- Date: Thu, 21 May 2026 21:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.545054
- Title: Self-Play Reinforcement Learning under Imperfect Information in Big 2
- Title(参考訳): ビッグ2における不完全情報による自己演奏強化学習
- Authors: Aalok Patwa,
- Abstract要約: 我々は不完全情報カードゲームBig 2のためのセルフプレイRLフレームワークを開発した。
共通の環境下では、PPOはモンテカルロQ近似、SARSA、Qラーニングをランダム、欲求、ビッグ2相手に対して上回る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imperfect-information multiplayer games test whether agents can act under hidden information, sparse rewards, and non-stationary opponents. We study these challenges in Big 2, a four-player imperfect-information card game. We develop a self-play RL framework for Big 2 that enables controlled comparisons between policy-gradient and value-approximating agents. Under a common environment, input representation, training budget, and evaluation protocol, PPO outperforms Monte Carlo Q approximation, SARSA, and Q-learning against random, greedy, and heuristic Big 2 opponents. We further find that moderate entropy regularization improves PPO by preventing the policy from becoming overly deterministic, and that current-policy self-play provides a stronger finite-budget curriculum than checkpoint self-play or fixed-opponent training. Together, these results show that Big 2 is a useful controlled setting for studying deep RL under imperfect information, multiplayer interaction, delayed rewards, and variable action sets.
- Abstract(参考訳): 不完全情報マルチプレイヤーゲームは、エージェントが隠された情報、スパース報酬、および静止しない相手の下で行動できるかどうかをテストする。
本研究では,この課題を4人プレイヤの不完全な情報カードゲームBig 2で研究する。
我々は,政策段階と価値近似エージェントの制御された比較を可能にする,Big 2用のセルフプレイRLフレームワークを開発した。
共通環境下では、入力表現、トレーニング予算、評価プロトコルにおいて、PPOはモンテカルロQ近似、SARSA、およびQラーニングをランダムで欲求的でヒューリスティックなBig 2相手に対して上回る。
さらに、中程度のエントロピー正則化は、政策が過度に決定的になるのを防ぐことによってPPOを改善すること、そして現在の政治自己プレイは、チェックポイント・セルフプレイや固定対極的トレーニングよりも強力な有限予算のカリキュラムを提供する。
これらの結果から,Big 2は不完全な情報,マルチプレイヤーインタラクション,遅延報酬,可変アクションセットの下での深部RLの学習に有用な制御条件であることが示唆された。
関連論文リスト
- MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs [54.81359054218573]
大規模言語モデル(LLM)のためのマルチゲームアリーナと評価プラットフォームであるMindgamesを紹介する。
Mindgamesは、統合されたインタラクションインターフェース、TrueSkillベースの評価、および4つのゲーム環境にわたる完全な軌跡ログを提供する。
我々は,決定論的オフライントーナメントプロトコルMG-Refとともに,ターンレベルの観察,アクション,報酬を含む29,571個のマルチエージェントゲームを分析した。
論文 参考訳(メタデータ) (2026-05-28T07:33:47Z) - CPMobius: Iterative Coach-Player Reasoning for Data-Free Reinforcement Learning [55.425576693143285]
CPMbius(CPMobius)は推論モデルのデータフリー強化学習のためのCoach-Playerパラダイムである。
従来の対戦型自己プレーとは異なり、CPMbiusはコーチとプレーヤを独立しているが協力的な役割として扱う。
CPMbiusは、外部のトレーニングデータに頼ることなく、大幅に改善され、既存の教師なしアプローチよりも優れています。
論文 参考訳(メタデータ) (2026-02-03T01:38:53Z) - Confounding Robust Deep Reinforcement Learning: A Causal Approach [53.63254824501714]
本稿では,DQN(Deep Q-Network)に基づいて,観測データのバイアスの解消に頑健な新しい強化学習アルゴリズムを提案する。
提案手法は,12個のAtariゲームに対して適用され,観察された動作および目標ポリシーへの入力がミスマッチおよび観測されていない共同創設者が存在するすべてのゲームにおいて,標準DQNを一貫して支配していることがわかった。
論文 参考訳(メタデータ) (2025-10-24T02:58:01Z) - Automatic Reward Shaping from Confounded Offline Data [53.63254824501714]
本稿では,DQN(Deep Q-Network)に基づいて,観測データのバイアスの解消に頑健な新しい強化学習アルゴリズムを提案する。
提案手法は,12個のAtariゲームに対して適用され,観察された動作および目標ポリシーへの入力がミスマッチおよび観測されていない共同創設者が存在するすべてのゲームにおいて,標準DQNを一貫して支配していることがわかった。
論文 参考訳(メタデータ) (2025-05-16T17:40:01Z) - Improving Bidding and Playing Strategies in the Trick-Taking game Wizard
using Deep Q-Networks [0.0]
別々の入札・プレイフェーズを持つトリックテイクゲームWizardは、2つのインターリーブされた部分的に観測可能なマルコフ決定プロセス(POMDP)によってモデル化される。
ディープQネットワークワークス(DQN)は、非定常環境の課題に対処できる自己改善エージェントの強化に使用される。
訓練されたDQNエージェントは、ランダムなベースラインと規則に基づく非対称性の両方を残して、自己プレイの66%から87%の精度を達成する。
論文 参考訳(メタデータ) (2022-05-27T08:59:42Z) - Adversarial Online Learning with Variable Plays in the Pursuit-Evasion
Game: Theoretical Foundations and Application in Connected and Automated
Vehicle Cybersecurity [5.9774834479750805]
対戦型・非確率型マルチアームバンディット(MPMAB)は,演奏するアームの数が変動している場合に拡張する。
この作業は、相互接続された輸送システムにおいて、異なる重要な場所をスキャンするために割り当てられたリソースが、時間とともに、環境によって動的に変化するという事実によって動機付けられている。
論文 参考訳(メタデータ) (2021-10-26T23:09:42Z) - Predicting Game Engagement and Difficulty Using AI Players [3.0501851690100277]
本稿では,人間のプレイヤの行動と経験を予測するための自動プレイテスト手法を提案する。
これまで,Deep Reinforcement Learningゲームプレイングエージェントがゲーム難易度とプレイヤーエンゲージメントの両方を予測することが実証されてきた。
モンテカルロ木探索(MCTS)によるDRL向上によるこのアプローチの改善
論文 参考訳(メタデータ) (2021-07-26T09:31:57Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Joint Policy Search for Multi-agent Collaboration with Imperfect
Information [31.559835225116473]
我々は,各情報集合に局所化されるポリシー変更に対して,ゲーム値のグローバルな変化を分解可能であることを示す。
本稿では,不完全な情報ゲームにおける協調エージェントの協調ポリシーを反復的に改善する共同ポリシー探索を提案する。
論文 参考訳(メタデータ) (2020-08-14T17:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。