論文の概要: OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.06044v3
- Date: Mon, 3 Jun 2024 10:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:53:33.890096
- Title: OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models
- Title(参考訳): OpenToM:大規模言語モデルの理論推論能力評価のための総合ベンチマーク
- Authors: Hainiu Xu, Runcong Zhao, Lixing Zhu, Jinhua Du, Yulan He,
- Abstract要約: N-ToM(Neural Theory-of-Mind)は、他者の精神状態を理解し、追跡する能力を持つ機械である。
OpenToMは、より長く明確な物語、明示的な性格特性、キャラクタの意図によって引き起こされる行動でN-ToMを評価するための新しいベンチマークである。
身体世界における精神状態の特定の側面をモデル化する上では最先端のLSMが活躍するが、心理学世界におけるキャラクターの精神状態を追跡する際には不足することが明らかとなった。
- 参考スコア(独自算出の注目度): 17.042114879350788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Theory-of-Mind (N-ToM), machine's ability to understand and keep track of the mental states of others, is pivotal in developing socially intelligent agents. However, prevalent N-ToM benchmarks have several shortcomings, including the presence of ambiguous and artificial narratives, absence of personality traits and preferences, a lack of questions addressing characters' psychological mental states, and limited diversity in the questions posed. In response to these issues, we construct OpenToM, a new benchmark for assessing N-ToM with (1) longer and clearer narrative stories, (2) characters with explicit personality traits, (3) actions that are triggered by character intentions, and (4) questions designed to challenge LLMs' capabilities of modeling characters' mental states of both the physical and psychological world. Using OpenToM, we reveal that state-of-the-art LLMs thrive at modeling certain aspects of mental states in the physical world but fall short when tracking characters' mental states in the psychological world.
- Abstract(参考訳): N-ToM(Neural Theory-of-Mind)は、他者の精神状態を理解し、追跡する機械の能力である。
しかし、一般的なN-ToMベンチマークには、曖昧で人工的な物語の存在、性格の特徴や好みの欠如、キャラクターの精神的状態に対処する質問の欠如、質問の多様性の制限など、いくつかの欠点がある。
これらの問題に対応するために,(1)より長く明瞭な物語を持つN-ToMを評価するための新しいベンチマークであるOpenToMを構築し,(2)明示的な性格特性を持つキャラクター,(3)キャラクタ意図によって引き起こされる行動,(4)物理的・心理的両世界のキャラクターの精神状態をモデル化するLLMの能力に挑戦するために設計された質問について述べる。
OpenToMを用いて,身体世界における心的状態の特定の側面をモデル化する上で最先端のLLMが成長するが,心理世界における心的状態を追跡する際には不足することが明らかとなった。
関連論文リスト
- Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Towards A Holistic Landscape of Situated Theory of Mind in Large
Language Models [14.491223187047378]
大言語モデル(LLM)は、心の理論(ToM)の出現の可能性について、かなりの関心と議論を巻き起こしている。
最近のいくつかの調査では、これらのモデルに堅牢なToMが欠如していることが判明し、新しいベンチマークの開発に対する需要が高まっている。
マシンToMを7つのメンタルステートカテゴリに分類し、既存のベンチマークをデライン化して、探索されていないToMの側面を特定します。
論文 参考訳(メタデータ) (2023-10-30T15:12:09Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - Few-Shot Character Understanding in Movies as an Assessment to
Meta-Learning of Theory-of-Mind [47.13015852330866]
人間は、いくつかの観察によって、新しい架空のキャラクターを素早く理解することができる。
これは、人間のキャラクターの精神状態、すなわち理論・オブ・ミンド(ToM)の推論における、数少ないショットとメタラーニングの本質を反映している。
このギャップを新しいNLPデータセットであるToM-in-AMCで埋め、現実的な物語理解シナリオにおける機械によるToMのメタラーニングを初めて評価する。
論文 参考訳(メタデータ) (2022-11-09T05:06:12Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。