論文の概要: Re-evaluating Theory of Mind evaluation in large language models
- arxiv url: http://arxiv.org/abs/2502.21098v1
- Date: Fri, 28 Feb 2025 14:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:52.991599
- Title: Re-evaluating Theory of Mind evaluation in large language models
- Title(参考訳): 大規模言語モデルにおけるマインド評価理論の再評価
- Authors: Jennifer Hu, Felix Sosa, Tomer Ullman,
- Abstract要約: 認知科学からインスピレーションを得て,大規模言語モデルにおけるToM評価の状況を再評価する。
LLMがToMを持つかどうかについての意見の相違の主な理由は、モデルが人間の行動にマッチするかどうかの明確さの欠如である。
ToMと実用的コミュニケーションの関係など,今後の研究の方向性について論じる。
- 参考スコア(独自算出の注目度): 3.262532929657758
- License:
- Abstract: The question of whether large language models (LLMs) possess Theory of Mind (ToM) -- often defined as the ability to reason about others' mental states -- has sparked significant scientific and public interest. However, the evidence as to whether LLMs possess ToM is mixed, and the recent growth in evaluations has not resulted in a convergence. Here, we take inspiration from cognitive science to re-evaluate the state of ToM evaluation in LLMs. We argue that a major reason for the disagreement on whether LLMs have ToM is a lack of clarity on whether models should be expected to match human behaviors, or the computations underlying those behaviors. We also highlight ways in which current evaluations may be deviating from "pure" measurements of ToM abilities, which also contributes to the confusion. We conclude by discussing several directions for future research, including the relationship between ToM and pragmatic communication, which could advance our understanding of artificial systems as well as human cognition.
- Abstract(参考訳): 大きな言語モデル(LLM)が心の理論(ToM)を持っているかどうかという問題は、しばしば他人の精神状態について推論する能力として定義される。
しかし,LSMがToMを保有するかどうかの証拠は混在しており,最近の評価の伸びは収束には至っていない。
本稿では,認知科学からインスピレーションを得て,LLMにおけるToM評価の状況を再評価する。
我々は、LLMがToMを持っているかどうかという不一致の大きな理由は、モデルが人間の行動にマッチするかどうか、またはそれらの行動の根底にある計算を期待すべきかどうかの明確さの欠如であると主張している。
また、現在の評価がToM能力の「純粋な」測定から逸脱している可能性がある点を強調し、混乱にも寄与する。
我々は、ToMと実用的コミュニケーションの関係など、今後の研究の方向性について議論することで、人工システムと人間の認知の理解を深めることができると結論付けた。
関連論文リスト
- Enhancing Conversational Agents with Theory of Mind: Aligning Beliefs, Desires, and Intentions for Human-Like Interaction [1.7311858910424738]
オープンソースの言語モデル(LLaMA)は、ToM関連の情報をキャプチャして保存することができる。
ToM関連成分(信念、欲求、意図など)の明示的な操作が、応答アライメントを高めることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-02-20T00:39:05Z) - The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける長期的個人的背景を理解することの重要性を検証する。
現実的な評価シナリオにおける機械のToM能力の評価を行う。
論文 参考訳(メタデータ) (2025-01-03T09:04:45Z) - Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。
本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文 参考訳(メタデータ) (2024-07-08T14:58:29Z) - Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses [11.121931601655174]
心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。
進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
論文 参考訳(メタデータ) (2024-06-09T05:57:59Z) - NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding [55.38254464415964]
現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。
我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
論文 参考訳(メタデータ) (2024-04-21T11:51:13Z) - ToMBench: Benchmarking Theory of Mind in Large Language Models [41.565202027904476]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。
既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。
ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文 参考訳(メタデータ) (2024-02-23T02:05:46Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。