論文の概要: Causal Reinforcement Learning for Complex Card Games: A Magic The Gathering Benchmark
- arxiv url: http://arxiv.org/abs/2605.06066v1
- Date: Thu, 07 May 2026 11:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.737968
- Title: Causal Reinforcement Learning for Complex Card Games: A Magic The Gathering Benchmark
- Title(参考訳): 複雑なカードゲームのための因果強化学習:マジック・ザ・ギャザリングベンチマーク
- Authors: Cristiano da Costa Cunha, Ajmal Mian, Tim French, Wei Liu,
- Abstract要約: Magic: The GatheringをベースとしたGymnasiumベンチマークMTG-Causal-RLを紹介する。
各エピソードは因果変数、SCM予測介入効果、要素単位のクレジットトレースを露呈する。
本稿では,参照因果剤として因果グラフファクトリドアドバンテージPPO(CGFA-PPO)を提案する。
- 参考スコア(独自算出の注目度): 35.748383442073276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal reinforcement learning (RL) lacks benchmarks for complex systems that combine sequential decision making, hidden information, large masked action spaces, and explicit causal structure. We introduce MTG-Causal-RL, a Gymnasium benchmark built on Magic: The Gathering with a 3,077-dimensional partial observation, a 478-action masked discrete action space, five competitive Standard archetypes, three reward schemes, and a hand-specified Structural Causal Model (SCM) over strategic variables. Every episode exposes causal variables, SCM-predicted intervention effects, and per-factor credit traces, making causal credit assignment, leave-one-out cross-archetype transfer, and policy auditability first-class metrics. We adapt a panel of reference baselines: random, heuristic, masked PPO, a causal-world-model PPO variant, and an architecture-matched scalar control. We propose Causal Graph-Factored Advantage PPO (CGFA-PPO) as a reference causal agent that uses SCM parents of win probability as factor-aligned critic targets with an intervention-calibration loss. All comparisons use paired seeds, paired-bootstrap confidence intervals, and Holm-Bonferroni correction within pre-registered families. Masked PPO and CGFA-PPO reach competitive in-distribution win rates and exceed the random baseline; per-factor calibration trajectories and leave-one-out transfer gaps expose diagnostic structure that scalar win rate alone cannot. We release the benchmark, reference-baseline results, and full evaluation protocol openly. By coupling a strategically rich, partially observed domain with an explicit causal interface and statistical protocol, MTG-Causal-RL gives causal-RL, world-model, and LLM-agent research a shared testbed for questions current benchmarks cannot pose together: causal credit assignment under masked action spaces, structural transfer across archetypes, and SCM-grounded policy auditability.
- Abstract(参考訳): 因果強化学習(RL)は、シーケンシャルな意思決定、隠れた情報、大きなマスキングされた行動空間、明示的な因果構造を組み合わせた複雑なシステムのベンチマークを欠いている。
Magic: The Gathering with a 3,077-dimensional partial observed, a 478-action masked discrete action space, five competitive Standard archetypes, three reward scheme, and a hand-specified Structure Causal Model (SCM) over strategic variables。
各エピソードは因果変数、SCM予測の介入効果、および要素単位のクレジットトレースを公開し、因果的クレジット割り当て、異種間移行、ポリシー監査可能性第一級メトリクスを出力する。
我々は、ランダム、ヒューリスティック、マスク付きPPO、因果世界モデルPPO、アーキテクチャに適合したスカラー制御のパネルを適応する。
本稿では,SCM の親の勝利確率を,介入校正損失を伴う要因整合的批判対象として活用する参照因果エージェントとして,因果グラフファクターアドバンテージ PPO (CGFA-PPO) を提案する。
すべての比較では、事前登録された家族内でペアシード、ペアブートストラップの信頼区間、ホルム・ボンフェロニ補正が使用されている。
Masked PPO と CGFA-PPO は、競争力のある分配勝利率に達し、ランダムベースラインを超える。
ベンチマーク、基準ベースライン結果、および完全な評価プロトコルをオープンにリリースする。
戦略的にリッチで部分的に観察された領域を明示的な因果インターフェースと統計プロトコルに結合することにより、MTG-Causal-RLは因果RL、世界モデル、LLM-Adnt研究に、現在のベンチマークでは、マスクされたアクション空間下での因果信用割り当て、アーキタイプ間の構造的移動、SCMが基盤とする政策監査性といった、共通のテストベッドを与える。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs [5.834576254792341]
CoT(Chain-of-Thought)プロンプトは、個人識別可能な情報(PII)をプロンプトから推論トレースと出力に変換することで、プライバシーリスクを増大させる。
モデルに依存しないフレームワークを用いて, 直接的, 推論時のPIIリークについて検討する。
論文 参考訳(メタデータ) (2026-03-05T19:20:44Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Partial Action Replacement: Tackling Distribution Shift in Offline MARL [11.861550409939818]
オフラインマルチエージェント強化学習(MARL)は、アウト・オブ・ディストリビューション・ジョイント・アクションを評価することの難しさによって著しく妨げられている。
我々は、OOD問題を緩和し、異なるPAR戦略を動的に重み付けするために、SPaCQL(Soft-Partial conservative Q-Learning)を開発した。
また,SPaCQLは不確実性インフォームドウェイトを用いた分散シフトに適応的に対応していることを示す。
論文 参考訳(メタデータ) (2025-11-10T20:56:58Z) - Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。
サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。
1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。
本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:59:13Z) - Structure-Augmented Reasoning Generation [23.587337743113228]
Retrieval-Augmented Generation (RAG) システムは、構造化されていない文書コレクションから情報を暗黙的に接続するために、大きな言語モデルに依存するため、複雑なマルチホップ推論では失敗する。
この基本的な制限は、コヒーレントな推論連鎖を可能にする複雑な関係を認識するのではなく、検索された通路を独立した文脈として扱うことに起因している。
SARGは検索後のフレームワークであり、明示的な推論構造を具体化して従来のRAGパイプラインを変換する。
論文 参考訳(メタデータ) (2025-06-10T02:22:32Z) - Answering Causal Queries at Layer 3 with DiscoSCMs-Embracing
Heterogeneity [0.0]
本稿では, 分散一貫性構造因果モデル (DiscoSCM) フレームワークを, 反事実推論の先駆的アプローチとして提唱する。
論文 参考訳(メタデータ) (2023-09-17T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。