論文の概要: Observer, Not Player: Simulating Theory of Mind in LLMs through Game Observation
- arxiv url: http://arxiv.org/abs/2512.19210v1
- Date: Mon, 22 Dec 2025 09:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.698735
- Title: Observer, Not Player: Simulating Theory of Mind in LLMs through Game Observation
- Title(参考訳): オブザーバ、プレイヤーではなく:ゲーム観察を通してLLMにおける心の理論をシミュレートする
- Authors: Jerry Wang, Ting Yiu Liu,
- Abstract要約: 大規模言語モデル(LLM)が真の「理解」を示すかどうかを評価するための対話型フレームワークを提案する。
単純であるにもかかわらず、シーケンシャルな推論、適応、戦略認識を必要とするRock-Paper-Scissors (RPS)に焦点を当てる。
我々のフレームワークは、予測精度だけでなく、モデルが実行中の潜在戦略を安定して識別できるかどうかも把握します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present an interactive framework for evaluating whether large language models (LLMs) exhibit genuine "understanding" in a simple yet strategic environment. As a running example, we focus on Rock-Paper-Scissors (RPS), which, despite its apparent simplicity, requires sequential reasoning, adaptation, and strategy recognition. Our system positions the LLM as an Observer whose task is to identify which strategies are being played and to articulate the reasoning behind this judgment. The purpose is not to test knowledge of Rock-Paper-Scissors itself, but to probe whether the model can exhibit mind-like reasoning about sequential behavior. To support systematic evaluation, we provide a benchmark consisting of both static strategies and lightweight dynamic strategies specified by well-prompted rules. We quantify alignment between the Observer's predictions and the ground-truth distributions induced by actual strategy pairs using three complementary signals: Cross-Entropy, Brier score, and Expected Value (EV) discrepancy. These metrics are further integrated into a unified score, the Union Loss, which balances calibration, sensitivity, and payoff alignment. Together with a Strategy Identification Rate (SIR) metric, our framework captures not only predictive accuracy but also whether the model can stably identify the latent strategies in play. The demo emphasizes interactivity, transparency, and reproducibility. Users can adjust LLM distributions in real time, visualize losses as they evolve, and directly inspect reasoning snippets to identify where and why failures occur. In doing so, our system provides a practical and interpretable proxy for mind-like inference in sequential games, offering insights into both the strengths and limitations of current LLM reasoning.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) が,単純かつ戦略的に真の「理解」を示すか否かを評価するための対話型フレームワークを提案する。
実行中の例として、明らかに単純であるにもかかわらず、シーケンシャルな推論、適応、戦略認識を必要とするRock-Paper-Scissors (RPS)に焦点を当てる。
我々のシステムでは, LLMをどの戦略が実行されているかを特定し, この判断の背景にある理由を明確にすることを目的としたオブザーバとして位置づけている。
この目的は、ロック・パパー・シッソー自体の知識をテストすることではなく、モデルがシーケンシャルな振る舞いについてのマインドライな推論を示すことができるかどうかを調査することである。
体系的な評価を支援するため,我々は,厳密な規則によって規定される静的戦略と軽量な動的戦略の両方からなるベンチマークを提供する。
観測者の予測と実際の戦略対によって引き起こされる地道分布との整合性を,3つの相補的信号(クロスエントロピー,ブライアスコア,期待値(EV)差)を用いて定量化する。
これらの指標は統一されたスコアであるユニオン・ロスにさらに統合され、校正、感度、ペイオフアライメントのバランスをとる。
SIR(Strategy Identification Rate)メトリクスとともに、我々のフレームワークは予測精度だけでなく、モデルが実行中の潜在戦略を安定して識別できるかどうかも把握します。
デモでは、対話性、透明性、再現性を強調している。
ユーザはLLMディストリビューションをリアルタイムで調整し、進化するにつれて損失を視覚化し、推論スニペットを直接検査することで、障害の発生場所と原因を特定できる。
そこで本システムは,現在のLLM推論の長所と短所の両方を考察し,逐次ゲームにおけるマインドライな推論の実践的で解釈可能なプロキシを提供する。
関連論文リスト
- Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - LLM-Stackelberg Games: Conjectural Reasoning Equilibria and Their Applications to Spearphishing [15.764094200832071]
本稿では,大規模言語モデル(LLM)を戦略的相互作用に統合する逐次意思決定モデルの枠組みを紹介する。
LLM-Stackelbergゲームは,サイバーセキュリティや誤情報,レコメンデーションシステムといった領域において,意思決定をモデル化するための強力なパラダイムを提供する。
論文 参考訳(メタデータ) (2025-07-12T21:42:27Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - View From Above: A Framework for Evaluating Distribution Shifts in Model Behavior [0.9043709769827437]
大規模言語モデル(LLM)は特定のタスクを実行するよう要求される。
彼らの学習した表現が現実とどのように一致しているか。
分散シフトを体系的に評価するためのドメインに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-01T04:07:49Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z) - A Framework for Understanding and Visualizing Strategies of RL Agents [0.0]
本稿では,時間論理式を用いてエージェント戦略を特徴付ける逐次決定タスクの理解可能なモデル学習フレームワークを提案する。
我々は,手工芸の専門家政策と訓練された強化学習エージェントの痕跡を用いて,StarCraft II (SC2) の戦闘シナリオに関する枠組みを評価した。
論文 参考訳(メタデータ) (2022-08-17T21:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。