論文の概要: Readable Minds: Emergent Theory-of-Mind-Like Behavior in LLM Poker Agents
- arxiv url: http://arxiv.org/abs/2604.04157v1
- Date: Sun, 05 Apr 2026 15:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.950128
- Title: Readable Minds: Emergent Theory-of-Mind-Like Behavior in LLM Poker Agents
- Title(参考訳): 可読性マインド:LLMポーカーの創発的理論--Mind-like Behavior
- Authors: Hsieh-Ting Lin, Tsung-Yu Hou,
- Abstract要約: 他者の精神状態をモデル化する能力である心の理論(ToM)は、人間の社会的認知の基本である。
ToMライクな推論は相互作用力学のみから現れることを示す。
これらの知見は、人工知能と生物学的社会的認知の理解に影響を及ぼす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory of Mind (ToM) -- the ability to model others' mental states -- is fundamental to human social cognition. Whether large language models (LLMs) can develop ToM has been tested exclusively through static vignettes, leaving open whether ToM-like reasoning can emerge through dynamic interaction. Here we report that autonomous LLM agents playing extended sessions of Texas Hold'em poker progressively develop sophisticated opponent models, but only when equipped with persistent memory. In a 2x2 factorial design crossing memory (present/absent) with domain knowledge (present/absent), each with five replications (N = 20 experiments, ~6,000 agent-hand observations), we find that memory is both necessary and sufficient for ToM-like behavior emergence (Cliff's delta = 1.0, p = 0.008). Agents with memory reach ToM Level 3-5 (predictive to recursive modeling), while agents without memory remain at Level 0 across all replications. Strategic deception grounded in opponent models occurs exclusively in memory-equipped conditions (Fisher's exact p < 0.001). Domain expertise does not gate ToM-like behavior emergence but enhances its application: agents without poker knowledge develop equivalent ToM levels but less precise deception (p = 0.004). Agents with ToM deviate from game-theoretically optimal play (67% vs. 79% TAG adherence, delta = -1.0, p = 0.008) to exploit specific opponents, mirroring expert human play. All mental models are expressed in natural language and directly readable, providing a transparent window into AI social cognition. Cross-model validation with GPT-4o yields weighted Cohen's kappa = 0.81 (almost perfect agreement). These findings demonstrate that functional ToM-like behavior can emerge from interaction dynamics alone, without explicit training or prompting, with implications for understanding artificial social intelligence and biological social cognition.
- Abstract(参考訳): 他者の精神状態をモデル化する能力である心の理論(ToM)は、人間の社会的認知の基本である。
大規模言語モデル(LLM)がToMを開発できるかどうかは静的なウィグレットでのみテストされ、動的相互作用によってToMライクな推論が実現可能かどうかが明らかになっている。
本稿では,テキサスホールデムポーカーの延長セッションを行う自律LLMエージェントが,永続記憶を備える場合にのみ,段階的に高度な対戦モデルを開発することを報告する。
ドメイン知識(現在/現在)を持つ2x2因子設計交差メモリにおいて、それぞれ5つの複製(N = 20 の実験、約6,000 のエージェントハンド観察)があり、メモリはToMのような振る舞いの出現に必要かつ十分である(Cliff's delta = 1.0, p = 0.008)。
メモリを持つエージェントはToM Level 3-5(再帰的モデリングによる予測)に到達し、メモリを持たないエージェントはすべてのレプリケーションでレベル0に留まる。
反対のモデルに根ざした戦略的偽装は、メモリを持つ条件でのみ発生する(フィッシャーの正確な p < 0.001 )。
ドメインの専門知識は、ToMのような振る舞いの出現をゲートしないが、その応用を強化する: ポーカー知識を持たないエージェントは、同等のToMレベルを発達するが、精度は低い(p = 0.004)。
ToMのエージェントはゲーム理論上最適なプレイ(67%対79%のTAG順守、デルタ = -1.0, p = 0.008)から逸脱し、特定の相手を搾取し、熟練した人間のプレーをミラーリングする。
すべてのメンタルモデルは自然言語で表現され、直接読める。
GPT-4oを用いたクロスモデル検証により、コーエンのカッパは0.81(ほぼ完全な一致)となる。
これらの結果から, 機能的ToM様行動は, 明示的なトレーニングや刺激を伴わずに, 相互作用力学のみから出現し, 人工知能や生物学的社会的認知の理解に寄与することが示唆された。
関連論文リスト
- Spatial Mental Modeling from Limited Views [71.57140964322559]
新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。
MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
論文 参考訳(メタデータ) (2025-06-26T16:38:19Z) - The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind [8.341160422849969]
Decryptoはマルチエージェント推論とToMのためのゲームベースのベンチマークである。
インタラクティブなToM実験を設計するための最初のプラットフォームである。
LLMのゲームプレイ能力は人間より遅れており,簡単な単語埋め込みが可能である。
論文 参考訳(メタデータ) (2025-06-25T17:55:27Z) - MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems [17.381122321801556]
メタ認知の心理学理論に触発されたマルチエージェントフレームワークであるMetaMindを紹介する。
我々のフレームワークは3つの挑戦的なベンチマークで最先端のパフォーマンスを実現し、実世界の社会的シナリオは35.7%改善した。
この研究は、共感的対話や文化的に敏感な相互作用に応用して、人間のような社会知性に向けてAIシステムを前進させる。
論文 参考訳(メタデータ) (2025-05-25T02:32:57Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。
ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。
以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T00:32:38Z) - Generative Agents for Multi-Agent Autoformalization of Interaction Scenarios [3.5083201638203154]
本稿では,GAMA(Generative Agents for Multi-Agent Autoformalization)フレームワークを紹介する。
GAMAは大規模言語モデル(LLM)を付加したエージェントを用いたシミュレーションにおける相互作用シナリオの形式化を自動化する
5つの2x2同時移動ゲームにおける110の自然言語記述の実験では、GAMAは100%構文的、76.5%の意味的正当性を達成している。
論文 参考訳(メタデータ) (2024-12-11T22:37:45Z) - Kolb-Based Experiential Learning for Generalist Agents with Human-Level Kaggle Data Science Performance [81.05882480184587]
本稿では,自律エージェントに対するVygotskyのZPDを用いて,Kolbの学習サイクルの計算フレームワークを提案する。
Agent Kは、KolbとVygotskyにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
金9個、銀8個、銅12個で、メダル獲得競争で金4個、銀4個を含む。エージェントKは、コルブとヴィーゴツキーにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
論文 参考訳(メタデータ) (2024-11-05T23:55:23Z) - SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。