論文の概要: Emergent World Beliefs: Exploring Transformers in Stochastic Games
- arxiv url: http://arxiv.org/abs/2512.23722v1
- Date: Thu, 18 Dec 2025 19:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.122649
- Title: Emergent World Beliefs: Exploring Transformers in Stochastic Games
- Title(参考訳): 創発的世界信念:確率ゲームにおけるトランスフォーマーの探求
- Authors: Adam Kamel, Tanish Rastogi, Michael Ma, Kailash Ranganathan, Kevin Zhu,
- Abstract要約: トランスフォーマーベースの大規模言語モデル(LLM)は、様々な分野にまたがる強力な推論能力を示している。
我々は、ポーカーハンドヒストリーデータにGPTスタイルのモデルを事前学習し、その内部アクティベーションを探索する。
本結果は,手の位置などの決定論的構造と,エクイティなどの特徴の両方を,明示的な指示なしに学習できることを実証する。
- 参考スコア(独自算出の注目度): 2.497936211748472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models (LLMs) have demonstrated strong reasoning abilities across diverse fields, from solving programming challenges to competing in strategy-intensive games such as chess. Prior work has shown that LLMs can develop emergent world models in games of perfect information, where internal representations correspond to latent states of the environment. In this paper, we extend this line of investigation to domains of incomplete information, focusing on poker as a canonical partially observable Markov decision process (POMDP). We pretrain a GPT-style model on Poker Hand History (PHH) data and probe its internal activations. Our results demonstrate that the model learns both deterministic structure, such as hand ranks, and stochastic features, such as equity, without explicit instruction. Furthermore, by using primarily nonlinear probes, we demonstrated that these representations are decodeable and correlate with theoretical belief states, suggesting that LLMs are learning their own representation of the stochastic environment of Texas Hold'em Poker.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、プログラミング課題の解決からチェスのような戦略集約型ゲームへの競合に至るまで、様々な分野にわたる強力な推論能力を示している。
これまでの研究により、LLMは完全な情報を持つゲームで創発的世界モデルを開発することができ、内部表現は環境の潜伏状態に対応することが示されている。
本稿では,ポーカーを正準部分観測可能なマルコフ決定プロセス(POMDP)として,不完全情報の領域に拡張する。
我々は、ポーカーハンドヒストリー(PHH)データにGPTスタイルのモデルを事前学習し、その内部アクティベーションを探索する。
本結果は,手の位置などの決定論的構造と,エクイティのような確率的特徴の両方を明示的な指示なしに学習することを示す。
さらに、主に非線形プローブを用いて、これらの表現が復号可能であり、理論的信念状態と相関していることを示し、LLMがテキサスホールデムポーカーの確率的環境の表現を学習していることを示唆した。
関連論文リスト
- VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - Play to Generalize: Learning to Reason Through Game Play [18.085614901290427]
そこで我々は,MLLMがアーケードライクなゲームによって一般化可能な推論スキルを発達させる,新しい学習方法であるVisual Game Learning (ViGaL)を提案する。
本研究は,マルチモーダル推論がゲームプレイから生まれることを示唆し,RLポストトレーニングのためのサロゲートタスクを設計するための有望な戦略を示唆している。
論文 参考訳(メタデータ) (2025-06-09T17:59:57Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。
機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。
位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - Mastering Board Games by External and Internal Planning with Language Models [30.782334791241556]
探索に基づくプランニングにより,大規模言語モデルによるゲームプレイ能力の大幅な向上が期待できることを示す。
外部探索では,モンテカルロ木探索のロールアウトと評価を外部ゲームエンジンに呼び出しずにガイドし,内部探索では,探索の線形化木と最終的な選択をインコンテキストで生成するように訓練する。
提案手法は,探索とドメイン知識を組み合わせることで,ボードゲームに特化せず,より汎用的な応用を示唆するものである。
論文 参考訳(メタデータ) (2024-12-02T18:56:51Z) - Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models [0.0]
我々は,Othelloゲーム上でGPTモデルをトレーニングし,ボード状態の内部表現を学習した。
この作業をチェスのより複雑な領域に拡張し、実際のゲームでトレーニングし、モデルの内部表現を調査します。
Li et al. の以前の合成データセットアプローチとは異なり、我々の分析では、このモデルがプレイヤースキルのような潜伏変数を推定し、次のキャラクタをより正確に予測する方法も学んでいる。
論文 参考訳(メタデータ) (2024-03-21T18:53:23Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - FL Games: A federated learning framework for distribution shifts [71.98708418753786]
フェデレートラーニングは、サーバのオーケストレーションの下で、クライアント間で分散されたデータの予測モデルをトレーニングすることを目的としている。
本稿では,クライアント間で不変な因果的特徴を学習するためのゲーム理論のフレームワークであるFL Gamesを提案する。
論文 参考訳(メタデータ) (2022-05-23T07:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。