論文の概要: TactfulToM: Do LLMs Have the Theory of Mind Ability to Understand White Lies?
- arxiv url: http://arxiv.org/abs/2509.17054v1
- Date: Sun, 21 Sep 2025 12:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.092577
- Title: TactfulToM: Do LLMs Have the Theory of Mind Ability to Understand White Lies?
- Title(参考訳): TactfulToM: LLMは白人の嘘を理解できる心の理論を持っているか?
- Authors: Yiwei Liu, Emma Jane Pretty, Jiahao Huang, Saku Sugawara,
- Abstract要約: TactfulToMは,Large Language Models (LLM) の機能を評価するために設計された新しい英語ベンチマークである。
我々のベンチマークは、LLMが手動で設計したシードストーリーを会話に拡張し、真に白い嘘をつくのに必要な情報非対称性を維持するマルチステージのヒューマン・イン・ザ・ループ・パイプラインを通じて生成される。
我々は、TactfulToMが人間よりかなり低い性能を発揮する最先端のモデルでは困難であることが示し、ToM推論を完全に理解し、白い嘘を真に理解する能力の欠点を明らかにした。
- 参考スコア(独自算出の注目度): 13.075782848287487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent studies explore Large Language Models' (LLMs) performance on Theory of Mind (ToM) reasoning tasks, research on ToM abilities that require more nuanced social context is limited, such as white lies. We introduce TactfulToM, a novel English benchmark designed to evaluate LLMs' ability to understand white lies within real-life conversations and reason about prosocial motivations behind them, particularly when they are used to spare others' feelings and maintain social harmony. Our benchmark is generated through a multi-stage human-in-the-loop pipeline where LLMs expand manually designed seed stories into conversations to maintain the information asymmetry between participants necessary for authentic white lies. We show that TactfulToM is challenging for state-of-the-art models, which perform substantially below humans, revealing shortcomings in their ability to fully comprehend the ToM reasoning that enables true understanding of white lies.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) における心の理論推論タスク(ToM)についての研究が進んでいるが、よりニュアンスな社会的文脈を必要とするToM能力の研究は、例えば白い嘘のような限定的である。
TactfulToMは、LLMが現実の会話の中で白人の嘘を理解し、その背景にある社会的動機について、特に他人の感情を和らげたり、社会的調和を維持するために使用される場合に、推論する能力を評価するために設計された、新しい英語のベンチマークである。
我々のベンチマークは、LLMが手動で設計したシードストーリーを会話に拡張し、真に白い嘘をつくのに必要な参加者間の情報非対称性を維持するマルチステージのヒューマン・イン・ザ・ループ・パイプラインを通じて生成される。
我々は、TactfulToMが人間よりかなり低い性能を発揮する最先端のモデルでは困難であることが示し、ToM推論を完全に理解し、白い嘘を真に理解する能力の欠点を明らかにした。
関連論文リスト
- Because we have LLMs, we Can and Should Pursue Agentic Interpretability [22.10895793309226]
大規模言語モデル(LLM)は、ユーザのメンタルモデルの開発と活用によって、人間の理解を積極的に支援する。
エージェント的解釈性は、特に評価において、私たちが「ループの絡み合い」と呼ぶ性質のために、課題をもたらす。
エージェントの解釈可能性の約束は、人間がLLMの潜在的な欺く概念を学ぶのを助けることである。
論文 参考訳(メタデータ) (2025-06-13T18:13:58Z) - XToM: Exploring the Multilingual Theory of Mind for Large Language Models [57.9821865189077]
LLMにおける既存の心の理論の評価は英語に限られている。
XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。
以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文 参考訳(メタデータ) (2025-06-03T05:23:25Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける個人的背景に関する包括的文脈理解の重要性を検証する。
本稿では,古典小説の登場人物をベースとした1,035ToM質問からなるCharToMベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-01-03T09:04:45Z) - Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses [11.121931601655174]
心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。
進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
論文 参考訳(メタデータ) (2024-06-09T05:57:59Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。