論文の概要: Position: Theory of Mind Benchmarks are Broken for Large Language Models
- arxiv url: http://arxiv.org/abs/2412.19726v2
- Date: Wed, 05 Feb 2025 19:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 17:43:43.736930
- Title: Position: Theory of Mind Benchmarks are Broken for Large Language Models
- Title(参考訳): 位置: 大規模言語モデルにおけるマインドベンチマークの理論の崩壊
- Authors: Matthew Riemer, Zahra Ashktorab, Djallel Bouneffouf, Payel Das, Miao Liu, Justin D. Weisz, Murray Campbell,
- Abstract要約: このポジションペーパーは、大きな言語モデルが新しいパートナーにどのように適応するかを直接テストできないため、マインドベンチマークの大多数が壊れていると主張している。
この機能的心の理論は、その行動に関する予測に対して合理的な反応をした後、文脈内でエージェントに適応する能力である。
- 参考スコア(独自算出の注目度): 41.832853832803046
- License:
- Abstract: This position paper argues that the majority of theory of mind benchmarks are broken because of their inability to directly test how large language models (LLMs) adapt to new partners. This problem stems from the fact that theory of mind benchmarks for LLMs are overwhelmingly inspired by the methods used to test theory of mind in humans and fall victim to a fallacy of attributing human-like qualities to AI agents. We expect that humans will engage in a consistent reasoning process across various questions about a situation, but this is known to not be the case for current LLMs. Most theory of mind benchmarks only measure what we call literal theory of mind: the ability to predict the behavior of others. Measuring this kind of reasoning is very informative in testing the ability of agents with self-consistent reasoning. However, it is important to note the distinction between this and what we actually care about when this self-consistency cannot be taken for granted. We call this functional theory of mind: the ability to adapt to agents in-context following a rational response to predictions about their behavior. We find that top performing open source LLMs may display strong capabilities in literal theory of mind, depending on how they are prompted, but seem to struggle with functional theory of mind -- even when partner policies are exceedingly simple. Simply put, strong literal theory of mind performance does not necessarily imply strong functional theory of mind performance. Achieving functional theory of mind, particularly over long interaction horizons with a partner, is a significant challenge deserving a prominent role in any meaningful LLM theory of mind evaluation.
- Abstract(参考訳): このポジションペーパーは、大きな言語モデル(LLM)が新しいパートナーにどのように適応するかを直接テストできないため、マインドベンチマークの大多数が壊れていると主張している。
この問題は、LLMのマインドベンチマークの理論が、人間の心の理論をテストし、AIエージェントに人間のような品質をもたらす誤認による犠牲者を負わせる方法に圧倒的にインスパイアされているという事実に起因している。
我々は、状況に関する様々な質問に対して、人間が一貫した推論プロセスに従事することを期待するが、これは現在のLLMには当てはまらないことが知られている。
ほとんどの心の理論は、心のリテラル理論(心の振る舞いを予測する能力)と呼ばれるものだけを測定する。
このような推論を測定することは、自己一貫性のある推論を持つエージェントの能力をテストする上で非常に有益である。
しかし、この自己整合性が当然と言えない場合、この点と私たちが本当に関心を持っている点とを区別することは重要である。
この機能的心の理論は、その行動に関する予測に対して合理的な反応をした後、文脈内でエージェントに適応する能力である。
最高のパフォーマンスのオープンソースLLMは、どのように引き起こされるかによって、心のリテラル理論に強い能力を示すかもしれませんが、機能的な心の理論に苦慮しているようです。
単純に言えば、マインドパフォーマンスの強いリテラル理論は必ずしもマインドパフォーマンスの強い機能理論を暗示するわけではない。
心の機能理論、特にパートナーとの長い相互作用の地平線を乗り越えることは、心の評価のLLM理論において顕著な役割を担っている重要な課題である。
関連論文リスト
- Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - PHAnToM: Persona-based Prompting Has An Effect on Theory-of-Mind Reasoning in Large Language Models [25.657579792829743]
我々は,ロールプレイングの促進が理論・オブ・ミンド(ToM)推論能力にどのように影響するかを実証的に評価した。
本稿では、推論タスクの複雑さの固有のばらつきを超えて、社会的に動機づけられた相違が原因で、パフォーマンスの違いが発生するメカニズムを提案する。
論文 参考訳(メタデータ) (2024-03-04T17:34:34Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Large Language Models Fail on Trivial Alterations to Theory-of-Mind
Tasks [3.3178024597495903]
理論・オブ・ミンドのタスクは成功と失敗の両方を示している。
ToMの原則を維持する小さなバリエーションは、結果を彼らの頭に向ける。
一般論として,直観心理学におけるモデル評価のゼロ仮説は懐疑的であるべきだと論じる。
論文 参考訳(メタデータ) (2023-02-16T16:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。