論文の概要: OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling
- arxiv url: http://arxiv.org/abs/2605.26322v1
- Date: Mon, 25 May 2026 20:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.463065
- Title: OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling
- Title(参考訳): OmniToM: 明示的信念モデリングによるLLMにおける心のベンチマーク理論
- Authors: Adam Bawatneh, Sagar Sapkota, Amrit Singh Bedi, Santu Karmaker, Mubarak Shah,
- Abstract要約: ToM(Theory of Mind)は、大規模言語モデル(LLM)において、終点質問応答を用いて一般的に評価される。
このパラダイムは、モデルが堅牢な推論に必要な精神状態の表現を実際に構築しているかどうかを曖昧にしている。
我々は,これらの表現を直接評価するベンチマークであるOmniToMを紹介した。
- 参考スコア(独自算出の注目度): 49.9159527733006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM), the ability to infer others' knowledge, intentions, and emotions, is commonly evaluated in large language models (LLMs) using end-point question answering, where performance is judged solely by the final answer to a social reasoning query. This paradigm obscures whether the model actually constructs the underlying mental-state representations required for robust reasoning, particularly in scenarios involving divergent, evolving, or mistaken beliefs. In order to address this research gap, we introduce OmniToM, a benchmark that directly evaluates these representations by requiring explicit modeling of belief structures for all relevant actors within a narrative. These structures are composed of belief propositions: minimal statements of what an actor takes to be true about the world or another actor's mental state, allowing knowledge, intentions, emotions, and false beliefs to be analyzed in a common format. Models are evaluated in two stages: Stage 1: Belief Extraction, which extracts from the story the beliefs relevant to its social dynamics, and Stage 2: Belief Labeling, which assigns each belief a seven-dimensional schema label covering recursive order, truth status, knowledge access, explicitness, content type, mental source, and context. Built from 895 stories from the existing ToMBench story corpus and augmented with 22,343 labeled belief propositions, OmniToM uses a human-calibrated LLM-assisted annotation pipeline. Across diverse models in zero-shot evaluation, OmniToM reveals an actor-specific belief-tracking bottleneck: current LLMs struggle with the knowledge-access and representational decisions required to transform narrative facts into actors' beliefs and shared mental states.
- Abstract(参考訳): 他者の知識、意図、感情を推測する能力である心の理論(ToM)は、エンドポイント質問応答を用いて大規模言語モデル(LLM)で一般的に評価される。
このパラダイムは、特に散発的、進化的、誤った信念を含むシナリオにおいて、モデルが堅牢な推論に必要な精神状態の表現を実際に構築しているかどうかを曖昧にしている。
本研究のギャップに対処するために,物語内のすべてのアクターに対して,信念構造の明示的なモデリングを必要とすることにより,これらの表現を直接評価するベンチマークであるOmniToMを紹介する。
これらの構造は、信念の命題で構成されている: アクターが世界または他のアクターの精神状態について真であるべきことの最小限の言明により、知識、意図、感情、虚偽の信念を共通の形式で分析することができる。
モデルは2つの段階で評価される: ステージ1: 信念抽出(Stage 1: Belief extract)、ステージ2: 信念を、再帰的な順序、真実の状態、知識アクセス、明示性、コンテンツタイプ、メンタルソース、コンテキストを含む7次元のスキーマラベルに割り当てる。
OmniToMは、既存のToMBenchストーリーコーパスから895のストーリーから作られ、22,343のラベル付き信条で拡張された。
ゼロショット評価における多様なモデル全体で、OmniToMはアクター固有の信念追跡ボトルネックを明らかにしている。
関連論文リスト
- Dynamic Theory of Mind as a Temporal Memory Problem: Evidence from Large Language Models [0.8666275811953881]
心の理論 (ToM) は社会的認知と人間とAIの相互作用の中心である。
大規模言語モデル(LLM)はToMの理解と表現に役立つ。
我々はDTOM-Trackを導入し、制御されたマルチターン会話における時間的信念推論について検討する。
論文 参考訳(メタデータ) (2026-03-15T22:54:03Z) - TactfulToM: Do LLMs Have the Theory of Mind Ability to Understand White Lies? [13.075782848287487]
TactfulToMは,Large Language Models (LLM) の機能を評価するために設計された新しい英語ベンチマークである。
我々のベンチマークは、LLMが手動で設計したシードストーリーを会話に拡張し、真に白い嘘をつくのに必要な情報非対称性を維持するマルチステージのヒューマン・イン・ザ・ループ・パイプラインを通じて生成される。
我々は、TactfulToMが人間よりかなり低い性能を発揮する最先端のモデルでは困難であることが示し、ToM推論を完全に理解し、白い嘘を真に理解する能力の欠点を明らかにした。
論文 参考訳(メタデータ) (2025-09-21T12:18:35Z) - Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding [97.05584099530226]
MF$2$は、モデルがフル長の映画から重要な物語情報を理解し、統合し、思い出せるかどうかを評価するための新しいベンチマークである。
各ペアについて、モデルは真と偽のクレームの両方を正しく識別する必要がある。
実験の結果、オープンウェイトモデルとクローズド・オブ・ザ・アーティファクトモデルの両方が人間のパフォーマンスにかなり劣っていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T17:58:36Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind [25.524355451378593]
ToMATOは、会話よりもマルチチョイスQAとして定式化された新しいToMベンチマークである。
私たちは、信念、意図、欲望、感情、知識の5つのカテゴリにまたがって、一階と二階の精神状態を取ります。
ToMATOは5.4kの質問、753の会話、15の性格特性パターンで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:47:02Z) - The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける個人的背景に関する包括的文脈理解の重要性を検証する。
本稿では,古典小説の登場人物をベースとした1,035ToM質問からなるCharToMベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-01-03T09:04:45Z) - Understanding Epistemic Language with a Language-augmented Bayesian Theory of Mind [47.001163099930494]
ベイジアン推論に基づく認識的言語解釈モデルを導入する。
実験では,エージェントが迷路をナビゲートして,目標達成に必要な箱に隠されたキーを見つけ,エージェントの信念を判断する。
論文 参考訳(メタデータ) (2024-08-21T22:29:56Z) - Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。
本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文 参考訳(メタデータ) (2024-07-08T14:58:29Z) - How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文 参考訳(メタデータ) (2023-10-04T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。