論文の概要: Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind
- arxiv url: http://arxiv.org/abs/2602.13832v1
- Date: Sat, 14 Feb 2026 16:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.449445
- Title: Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind
- Title(参考訳): 言葉を超えて:心の理論によるユーザ・エージェントインタラクションにおける認識の多様性の評価とブリッジング
- Authors: Minyuan Ruan, Ziyue Wang, Kaiming Liu, Yunghwei Lai, Peng Li, Yang Liu,
- Abstract要約: 大規模言語モデル(LLM)は急速に発展し、汎用タスクと専門タスクの両方に広く応用されている。
意図や指示が不正確に伝達されるとき、彼らは依然として、真のユーザニーズを理解し、応答するのに苦労しています。
- 参考スコア(独自算出の注目度): 8.740788873949471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have developed rapidly and are widely applied to both general-purpose and professional tasks to assist human users. However, they still struggle to comprehend and respond to the true user needs when intentions and instructions are imprecisely conveyed, leading to a divergence between subjective user believes and true environment states. Resolving this epistemic divergence requires Theory of Mind (ToM), yet existing ToM evaluations for LLMs primarily focus on isolated belief inference, overlooking its functional utility in real-world interaction. To this end, we formalize ToM for LLMs as a mechanism for epistemic divergence detection and resolution, and propose a benchmark, \benchname, to assess how models reconcile user beliefs and profiles in practice. Results across 11 leading models reveal a significant limitation to identify underlying cognitive gaps that impede task success. To bridge this gap, we further curate a trajectory-based ToM dataset linking belief tracking with task-related state inference. The model trained on this data via reinforcement learning shows consistent improvement in reasoning about user mental states, leading to enhanced downstream performance. Our work highlights the practical value of ToM as an essential interaction-level mechanism rather than as a standalone reasoning skill.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に発展し、人間のユーザを支援する汎用タスクと専門タスクの両方に広く応用されている。
しかし、意図や指示が不正確に伝達された場合、彼らは依然として真のユーザニーズを理解し、答えることに苦慮しているため、主観的ユーザ信条と真の環境状態の相違が生じる。
これを解決するためには、心の理論(ToM)が必要であるが、LLMに対する既存のToM評価は主に、現実世界の相互作用における機能的有用性を見越して、孤立した信念推論に焦点を当てている。
そこで我々は,LLMのToMを,疫学的な発散検出と解決のメカニズムとして定式化し,モデルが実際にユーザ信念やプロファイルをどのように整合させるかを評価するベンチマークである‘benchname’を提案する。
11つの主要なモデルにまたがる結果は、タスクの成功を妨げる基礎となる認知的ギャップを特定するために、重大な制限が示される。
このギャップを埋めるため,信頼度追跡とタスク関連状態推論をリンクするトラジェクトリベースのToMデータセットをさらにキュレートする。
このデータに基づいてトレーニングされたモデルは、ユーザ精神状態の推論において一貫した改善が見られ、下流のパフォーマンスが向上する。
我々の研究は、スタンドアローンの推論スキルというよりは、本質的な相互作用レベルメカニズムとしてのToMの実践的価値を強調します。
関連論文リスト
- Reasoning Promotes Robustness in Theory of Mind Tasks [0.26945563448932225]
大規模言語モデル(LLM)は、最近、Theory of Mind(ToM)テストで強いパフォーマンスを示している。
本稿では,機械心理学実験の新たな適応法と確立されたベンチマークの結果を用いて,ToMタスクにおけるそのような推論モデルの挙動について検討する。
論文 参考訳(メタデータ) (2026-01-23T16:01:24Z) - A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。
我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。
MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文 参考訳(メタデータ) (2026-01-19T17:23:45Z) - LLM-MC-Affect: LLM-Based Monte Carlo Modeling of Affective Trajectories and Latent Ambiguity for Interpersonal Dynamic Insight [1.1119672724275114]
感情調整は、人間の相互作用の中核的な性質であり、リアルタイムで意味が構築されるかを形成する。
本稿では,静的なラベルではなく,連続的な潜在確率分布として感情を特徴付ける確率的フレームワークを提案する。
この研究は、対人ダイナミクスを理解するためのスケーラブルでデプロイ可能な経路を確立し、一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-07T06:50:41Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。
ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。
以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T00:32:38Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。