Fugu-MT 論文翻訳(概要): DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories

論文の概要: DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories

arxiv url: http://arxiv.org/abs/2604.20443v1
Date: Wed, 22 Apr 2026 11:07:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.098792
Title: DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories
Title（参考訳）: DialToM: 状態駆動対話軌道の予測のためのマインドベンチマークの理論
Authors: Neemesh Yadav, Palakorn Achananuparp, Jing Jiang, Ee-Peng Lim,
Abstract要約: 自然対話から構築された人間検証ベンチマークであるDialToMを紹介する。モデルが精神状態プロファイルのみから状態整合性対話軌跡を識別できるかどうかを評価する。
参考スコア（独自算出の注目度）: 21.300337724962336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have been shown to possess Theory of Mind (ToM) abilities. However, it remains unclear whether this stems from robust reasoning or spurious correlations. We introduce DialToM, a human-verified benchmark built from natural human dialogue using a multiple-choice framework. We evaluate not only mental state prediction (Literal ToM) but also the functional utility of these states (Functional ToM) through Prospective Diagnostic Forecasting -- probing whether models can identify state-consistent dialogue trajectories solely from mental-state profiles. Our results reveal a significant reasoning asymmetry: while LLMs excel at identifying mental states, most (except for Gemini 3 Pro) fail to leverage this understanding to forecast social trajectories. Additionally, we find only weak semantic similarities between human and LLM-generated inferences. To facilitate reproducibility, the DialToM dataset and evaluation code are publicly available at https://github.com/Stealth-py/DialToM.
Abstract（参考訳）: 大きな言語モデル(LLM)は、心の理論(ToM)能力を持っていることが示されている。しかし、これが頑健な理由づけや素早い相関に由来するかは定かではない。マルチチョイスフレームワークを用いた自然な対話から構築された人間検証ベンチマークであるDialToMを紹介する。我々は、精神状態予測(Literal ToM)だけでなく、これらの状態の機能的有用性(Functional ToM)も、予測的診断予測を通じて評価する。 LLMは精神状態の同定に優れていますが、ほとんどの場合(ジェミニ3プロを除く)、この理解を社会軌道の予測に利用できません。さらに、人間とLLM生成推論の弱いセマンティックな類似性しか見つからない。 DialToMデータセットと評価コードは、再現性を容易にするためにhttps://github.com/Stealth-py/DialToMで公開されている。

関連論文リスト

GPT-4o Lacks Core Features of Theory of Mind [0.09320657506524145]
ToMの認知的な定義を用いて、新しい評価フレームワークを開発し、テストする。 LLMは単純なToMパラダイムで人間の判断を近似することに成功したが、論理的に等価なタスクでは失敗する。
論文参考訳（メタデータ） (2026-02-12T16:33:58Z)
RecToM: A Benchmark for Evaluating Machine Theory of Mind in LLM-based Conversational Recommender Systems [23.229692182223157]
本稿では,大規模言語モデル評価のための新しいベンチマークであるRecToMを提案する。 RecToMは認知推論と行動予測という2つの相補的な側面に焦点を当てている。最先端のLCMに関する大規模な実験は、RecToMが大きな課題となることを示した。
論文参考訳（メタデータ） (2025-11-27T09:58:29Z)
Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文参考訳（メタデータ） (2025-04-02T12:58:42Z)
Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文参考訳（メタデータ） (2024-12-12T21:29:00Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文参考訳（メタデータ） (2023-10-24T00:24:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。