論文の概要: Look-ahead Reasoning with a Learned Model in Imperfect Information Games
- arxiv url: http://arxiv.org/abs/2510.05048v1
- Date: Mon, 06 Oct 2025 17:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.015373
- Title: Look-ahead Reasoning with a Learned Model in Imperfect Information Games
- Title(参考訳): 不完全な情報ゲームにおける学習モデルによるルックアヘッド推論
- Authors: Ondřej Kubíček, Viliam Lisý,
- Abstract要約: 本稿では,エージェントと環境の相互作用から不完全情報ゲームの抽象モデルを直接学習するアルゴリズムを提案する。
テスト期間中、このトレーニングされたモデルは、ルックアヘッド推論を実行するために使用されます。
LAMIRは十分なキャパシティで正確なゲーム構造を学習し、限られたキャパシティではまだ貴重な抽象化を学習していることを実証的に実証する。
- 参考スコア(独自算出の注目度): 3.4935179780034242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time reasoning significantly enhances pre-trained AI agents' performance. However, it requires an explicit environment model, often unavailable or overly complex in real-world scenarios. While MuZero enables effective model learning for search in perfect information games, extending this paradigm to imperfect information games presents substantial challenges due to more nuanced look-ahead reasoning techniques and large number of states relevant for individual decisions. This paper introduces an algorithm LAMIR that learns an abstracted model of an imperfect information game directly from the agent-environment interaction. During test time, this trained model is used to perform look-ahead reasoning. The learned abstraction limits the size of each subgame to a manageable size, making theoretically principled look-ahead reasoning tractable even in games where previous methods could not scale. We empirically demonstrate that with sufficient capacity, LAMIR learns the exact underlying game structure, and with limited capacity, it still learns a valuable abstraction, which improves game playing performance of the pre-trained agents even in large games.
- Abstract(参考訳): テストタイム推論は、トレーニング済みのAIエージェントのパフォーマンスを大幅に向上させる。
しかし、現実のシナリオではしばしば利用できない、あるいは過度に複雑である、明示的な環境モデルが必要である。
MuZeroは、完璧な情報ゲームにおける探索のための効果的なモデル学習を可能にするが、このパラダイムを不完全な情報ゲームに拡張することは、よりニュアンスなルックアヘッド推論技術と、個々の決定に関連する多数の状態によって、重大な課題をもたらす。
本稿ではエージェントと環境の相互作用から不完全な情報ゲームの抽象モデルを直接学習するアルゴリズム LAMIR を提案する。
テスト期間中、このトレーニングされたモデルは、ルックアヘッド推論を実行するために使用されます。
学習された抽象化は、各サブゲームのサイズを管理可能なサイズに制限し、従来の方法がスケールできないゲームでも理論的に原理化されたルックアヘッド推論が実行可能である。
実験により,LAMIRは十分なキャパシティで正確なゲーム構造を学習し,限られたキャパシティで貴重な抽象化を学習し,大規模ゲームにおいても事前学習したエージェントのゲームプレイ性能を向上させる。
関連論文リスト
- Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。
人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。
私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T11:18:41Z) - CivRealm: A Learning and Reasoning Odyssey in Civilization for
Decision-Making Agents [63.79739920174535]
文明ゲームに触発された環境であるCivRealmを紹介する。
CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文 参考訳(メタデータ) (2024-01-19T09:14:11Z) - Scaling Laws for Imitation Learning in Single-Agent Games [28.257046559127875]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Student of Games: A unified learning algorithm for both perfect and
imperfect information games [22.97853623156316]
Students of Gamesは、ガイド付き検索、自己学習、ゲーム理論推論を組み合わせたアルゴリズムである。
学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。
学生はチェスと囲碁で強い成績を収め、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、スコットランドヤードで最先端のエージェントを倒した。
論文 参考訳(メタデータ) (2021-12-06T17:16:24Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。