論文の概要: Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States
- arxiv url: http://arxiv.org/abs/2505.17663v1
- Date: Fri, 23 May 2025 09:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.959538
- Title: Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States
- Title(参考訳): 心の動的理論に向けて:人間国家の時間的進化に対するLLM適応性の評価
- Authors: Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu,
- Abstract要約: 我々は、大規模言語モデルが精神状態の時間的進行を理解し、追跡する能力を評価するために設計された新しいベンチマークであるtextscDynToMを提案する。
私たちは5500のシナリオと78,100の質問を含む1,100の社会的コンテキストを生成します。
我々の総合評価では、心的状態の変化の追跡と推論において、平均的なパフォーマンスは人間を44.7%下回る結果となった。
- 参考スコア(独自算出の注目度): 34.30614600300616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) increasingly participate in human-AI interactions, evaluating their Theory of Mind (ToM) capabilities - particularly their ability to track dynamic mental states - becomes crucial. While existing benchmarks assess basic ToM abilities, they predominantly focus on static snapshots of mental states, overlooking the temporal evolution that characterizes real-world social interactions. We present \textsc{DynToM}, a novel benchmark specifically designed to evaluate LLMs' ability to understand and track the temporal progression of mental states across interconnected scenarios. Through a systematic four-step framework, we generate 1,100 social contexts encompassing 5,500 scenarios and 78,100 questions, each validated for realism and quality. Our comprehensive evaluation of ten state-of-the-art LLMs reveals that their average performance underperforms humans by 44.7\%, with performance degrading significantly when tracking and reasoning about the shift of mental states. This performance gap highlights fundamental limitations in current LLMs' ability to model the dynamic nature of human mental states.
- Abstract(参考訳): 大規模言語モデル(LLM)が人間とAIの相互作用にますます関与するにつれて、その精神理論(ToM)能力(特に動的精神状態を追跡する能力)を評価することが重要になる。
既存のベンチマークは基本的なToM能力を評価するが、それらは主に、現実世界の社会的相互作用を特徴付ける時間的進化を見越して、精神状態の静的スナップショットに焦点を当てている。
本稿では,LLMが精神状態の時間的進行を理解し,追跡する能力を評価するための新しいベンチマークである「textsc{DynToM}」を提案する。
体系的な4段階のフレームワークを通じて、5500のシナリオと78,100の質問を含む1,100の社会的コンテキストを生成し、それぞれが現実性と品質を検証した。
これまでの10種類のLCMの総合評価から, 平均的パフォーマンスは, 精神状態の変化の追跡と推論において, パフォーマンスが著しく低下し, 人体に44.7倍の低下がみられた。
このパフォーマンスギャップは、人間の精神状態の動的な性質をモデル化する現在のLLMの能力の基本的な制限を強調している。
関連論文リスト
- Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications [25.38031971196831]
大規模言語モデル(LLM)は、人間中心のタスクでますます使われるようになっている。
彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。
本研究は,LLMのより解釈しやすく,堅牢で,一般化可能な心理的アセスメントフレームワークを開発するための今後の方向性を提案することを目的とする。
論文 参考訳(メタデータ) (2025-04-30T06:09:40Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - A Systematic Review on the Evaluation of Large Language Models in Theory of Mind Tasks [0.0]
本稿では,大規模言語モデル(LLM)のToMタスク実行能力を評価するための現在の取り組みを整理する。
文学における繰り返しのテーマは、LLMがToMタスクにおける能力の増大を示す一方で、人間の認知能力のエミュレーションにおいて大きなギャップが持続していることを示している。
論文 参考訳(メタデータ) (2025-02-12T21:19:30Z) - A Survey on Human-Centric LLMs [11.49752599240738]
大型言語モデル(LLM)は人間の認知と行動をシミュレートすることができる。
この調査は個々のタスクと集合タスクの両方のパフォーマンスに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-20T12:34:44Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。