論文の概要: The Hidden Game Problem
- arxiv url: http://arxiv.org/abs/2510.03845v1
- Date: Sat, 04 Oct 2025 15:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.294964
- Title: The Hidden Game Problem
- Title(参考訳): 隠れゲーム問題
- Authors: Gon Buzaglo, Noah Golowich, Elad Hazan,
- Abstract要約: 隠れゲーム問題を導入し、各プレイヤーに対して、未知の戦略のサブセットが、他のプレイヤーに比べて常に高い報酬を得られるようにする。
我々は, 最適外界を達成し, 後悔境界をスワップする, 後悔最小化手法の合成を開発する。
提案手法は,隠れたゲーム構造を利用して計算効率の向上を図ることによって,隠れたサブゲームにおける相関平衡に迅速に収束することを保証する。
- 参考スコア(独自算出の注目度): 24.447454826751155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates a class of games with large strategy spaces, motivated by challenges in AI alignment and language games. We introduce the hidden game problem, where for each player, an unknown subset of strategies consistently yields higher rewards compared to the rest. The central question is whether efficient regret minimization algorithms can be designed to discover and exploit such hidden structures, leading to equilibrium in these subgames while maintaining rationality in general. We answer this question affirmatively by developing a composition of regret minimization techniques that achieve optimal external and swap regret bounds. Our approach ensures rapid convergence to correlated equilibria in hidden subgames, leveraging the hidden game structure for improved computational efficiency.
- Abstract(参考訳): 本稿では,AIアライメントと言語ゲームにおける課題を動機として,大きな戦略空間を持つゲーム群について検討する。
隠れゲーム問題を導入し、各プレイヤーに対して、未知の戦略のサブセットが、他のプレイヤーに比べて常に高い報酬を得られるようにする。
中心的な問題は、効率的な後悔の最小化アルゴリズムがそのような隠れた構造を発見し、利用するために設計できるかどうかであり、これらのサブゲームにおいて、一般に合理性を維持しながら均衡をもたらす。
本稿では, 最適外部化とリフレッシュバウンダリのスワップを実現する, 後悔最小化手法の合成を開発することにより, 肯定的な回答を得る。
提案手法は,隠れたゲーム構造を利用して計算効率の向上を図ることによって,隠れたサブゲームにおける相関平衡に迅速に収束することを保証する。
関連論文リスト
- Meta-Learning in Self-Play Regret Minimization [10.843705580746397]
両プレイヤーゼロサムゲームにおけるナッシュ均衡を近似する多くのアルゴリズムにおいて,オンライン最適化に対する一般的なアプローチを提案する。
これに基づいてフレームワークを、最先端の平衡近似アルゴリズムの基盤である、より困難なセルフプレイ設定に拡張する。
私たちのメタ学習アルゴリズムは、他の最先端の後悔の最小化アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2025-04-26T13:27:24Z) - Playing Large Games with Oracles and AI Debate [27.355621483737913]
既存のオンラインゲームプレイのアルゴリズムでは、アクションの回数のイテレーションが要求されるため、大規模なゲームでは禁止される可能性がある。
動作数を対数的に依存する外部と内部の後悔の最小化を同時に行うための,新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:06:55Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov Games [61.6869963435955]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Impartial Games: A Challenge for Reinforcement Learning [0.0]
我々は,AlphaZeroスタイルの強化学習アルゴリズムが,公平なゲームに適用した場合,重要かつ基本的な課題に直面することを示す。
その結果,AlphaZeroスタイルのエージェントはチャンピオンレベルのプレーを達成できるが,ボードサイズが大きくなるにつれて学習の進歩は著しく低下することがわかった。
これらの結果は、AlphaZeroスタイルのアルゴリズムの攻撃に対する脆弱性に関するより広範な懸念と一致している。
論文 参考訳(メタデータ) (2022-05-25T14:02:02Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。