論文の概要: SkyNet: Belief-Aware Planning for Partially-Observable Stochastic Games
- arxiv url: http://arxiv.org/abs/2603.27751v1
- Date: Sun, 29 Mar 2026 16:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.099824
- Title: SkyNet: Belief-Aware Planning for Partially-Observable Stochastic Games
- Title(参考訳): SkyNet: 部分的に観測可能な確率ゲームのための信念を意識した計画
- Authors: Adam Haile,
- Abstract要約: 優勝予測とランク推定のために,エゴ条件付き補助ヘッドを付加したSkyNetを導入する。
これらの目的は、潜在国家が部分観測可能性の下で結果を予測する情報を維持することを奨励する。
一部観測可能な非ゼロサムカードゲームであるSkyjo上でSkyNetを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In 2019, Google DeepMind released MuZero, a model-based reinforcement learning method that achieves strong results in perfect-information games by combining learned dynamics models with Monte Carlo Tree Search (MCTS). However, comparatively little work has extended MuZero to partially observable, stochastic, multi-player environments, where agents must act under uncertainty about hidden state. Such settings arise not only in card games but in domains such as autonomous negotiation, financial trading, and multi-agent robotics. In the absence of explicit belief modeling, MuZero's latent encoding has no dedicated mechanism for representing uncertainty over unobserved variables. To address this, we introduce SkyNet (Belief-Aware MuZero), which adds ego-conditioned auxiliary heads for winner prediction and rank estimation to the standard MuZero architecture. These objectives encourage the latent state to retain information predictive of outcomes under partial observability, without requiring explicit belief-state tracking or changes to the search algorithm. We evaluate SkyNet on Skyjo, a partially observable, non-zero-sum, stochastic card game, using a decision-granularity environment, transformer-based encoding, and a curriculum of heuristic opponents with self-play. In 1000-game head-to-head evaluations at matched checkpoints, SkyNet achieves a 75.3% peak win rate against the baseline (+194 Elo, $p < 10^{-50}$). SkyNet also outperforms the baseline against heuristic opponents (0.720 vs.\ 0.466 win rate). Critically, the belief-aware model initially underperforms the baseline but decisively surpasses it once training throughput is sufficient, suggesting that belief-aware auxiliary supervision improves learned representations under partial observability, but only given adequate data flow.
- Abstract(参考訳): 2019年、Google DeepMindはモデルベースの強化学習手法であるMuZeroをリリースした。これは、学習されたダイナミクスモデルとMCTS(Monte Carlo Tree Search)を組み合わせることで、完璧な情報ゲームで強力な結果を得ることができる。
しかし、比較的少ない研究により、MuZeroは部分的に観察可能で確率的なマルチプレイヤー環境に拡張され、エージェントは隠された状態に対して不確実な振る舞いをしなければならない。
このような設定はカードゲームだけでなく、自律的な交渉、金融取引、マルチエージェント・ロボティクスといった分野にも発生する。
明示的な信念モデリングがなければ、ムゼロの潜伏符号化は、観測されていない変数に対する不確実性を表現するための特別なメカニズムを持たない。
これを解決するためにSkyNet(Belief-Aware MuZero)を導入し、標準のMuZeroアーキテクチャにエゴ条件付き補助ヘッドを付加し、勝者の予測とランク推定を行う。
これらの目的は、明示的な信念状態の追跡や探索アルゴリズムの変更を必要とせずに、潜在状態が部分的に可観測性の下で結果を予測する情報を維持することを奨励する。
スカイホのSkyNet, 部分的に観測可能な非ゼロサム確率型カードゲーム, 決定粒度環境, トランスフォーマーベースエンコーディング, 自己プレイによるヒューリスティック対戦者のカリキュラムを用いて, 評価を行った。
マッチしたチェックポイントでの1000試合のヘッド・ツー・ヘッドの評価では、SkyNetはベースライン(+194 Elo, $p < 10^{-50}$)に対して75.3%のピーク勝利率を達成した。
SkyNetは、ヒューリスティックな相手(0.720対.)に対してベースラインを上回っている。
勝利率0.466)。
批判的に言えば、信念認識モデルは最初はベースラインを過小評価するが、トレーニングスループットが十分であれば決定的にそれを上回り、信念認識補助的指導は部分的可観測性の下で学習された表現を改善するが、十分なデータフローのみを与えられることを示唆している。
関連論文リスト
- Moirai 2.0: When Less Is More for Time Series Forecasting [91.36760228926214]
Moirai 2.0は、36Mシリーズの新しいコーパスで訓練されたデコーダのみの基礎モデルである。
これは、精度、速度、モデルサイズの間の強いトレードオフを達成しつつ、事前訓練された上位モデルの1つにランク付けします。
効率性とモデルサイズに関しては、Moirai 2.0は前バージョンであるMoirai 1.0-Largeの2倍の速度と30倍の小型である。
論文 参考訳(メタデータ) (2025-11-12T12:15:35Z) - Scaling Laws For Scalable Oversight [12.393237842241716]
本稿では,監視者の能力と監視対象システムの機能として,監視を成功させる確率を定量化する枠組みを提案する。
当社のフレームワークは,Mafia, Debate, Backdoor Code, Wargamesの4つの監視ゲームに適用しています。
一般的なエロギャップにおける成功率は、マフィアが13.5%、ディベートが51.7%、バックドア・コードが10.0%、ウォーゲームが9.4%である。
論文 参考訳(メタデータ) (2025-04-25T17:54:27Z) - Demystifying MuZero Planning: Interpreting the Learned Model [12.47846647115319]
MuZeroは、動的ネットワークを用いて、計画のための環境ダイナミクスを予測することで、様々なゲームで超人的なパフォーマンスを実現している。
本稿では,学習した潜伏状態の解釈により,MuZeroのモデルをデミスティフィケートすることを目的とする。
論文 参考訳(メタデータ) (2024-11-07T10:06:23Z) - HSVI-based Online Minimax Strategies for Partially Observable Stochastic Games with Neural Perception Mechanisms [31.51588071503617]
ニューラル認知機構と非対称情報構造を持つ連続状態の部分観測可能なゲームの変種を考察する。
1つのエージェントは部分的な情報を持ち、もう1つのエージェントは状態に関する完全な知識を持っていると仮定される。
本稿では,各エージェントに対して$varepsilon$-minimax戦略プロファイルを計算するための効率的なオンライン手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T15:58:20Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - MetaFormer Baselines for Vision [166.01609889532747]
私たちはMetaFormerのベースラインモデルをいくつか導入し、最も基本的なミキサーや一般的なミキサーを使用します。
MetaFormerはパフォーマンスのしっかりとした低いバウンダリを保証します。
また,新たなアクティベーションであるStarReLUは,GELUと比較してFLOPを減少させるが,性能は向上する。
論文 参考訳(メタデータ) (2022-10-24T17:59:57Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z) - MetaDetect: Uncertainty Quantification and Prediction Quality Estimates
for Object Detection [6.230751621285322]
ディープニューラルネットワークを用いたオブジェクト検出では、ボックスワイドのオブジェクト性スコアは過信される傾向にある。
本稿では,任意のニューラルネットワークに対して予測不確実性推定と品質推定を提供するポスト処理手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T21:49:23Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。