論文の概要: Are LLMs Smarter Than Chimpanzees? An Evaluation on Perspective Taking and Knowledge State Estimation
- arxiv url: http://arxiv.org/abs/2601.12410v1
- Date: Sun, 18 Jan 2026 13:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.619279
- Title: Are LLMs Smarter Than Chimpanzees? An Evaluation on Perspective Taking and Knowledge State Estimation
- Title(参考訳): LLMはチンパンジーより賢か? : パースペクティブ・テイキングと知識状態推定による評価
- Authors: Dingyi Yang, Junqi Zhao, Xue Li, Ce Li, Boyang Li,
- Abstract要約: 我々の最も近い動物であるチンパンジーは、その能力に欠けています。
LLMがストーリーキャラクタが、その行動を通じて、保持すべきでない知識をいつ検出できるかをテストするための2つのタスクを設計する。
その結果,現在のLLMは両タスクにおいてほぼランダムな性能を示し,人間にはかなり劣っていることがわかった。
- 参考スコア(独自算出の注目度): 16.04952281210845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cognitive anthropology suggests that the distinction of human intelligence lies in the ability to infer other individuals' knowledge states and understand their intentions. In comparison, our closest animal relative, chimpanzees, lack the capacity to do so. With this paper, we aim to evaluate LLM performance in the area of knowledge state tracking and estimation. We design two tasks to test (1) if LLMs can detect when story characters, through their actions, demonstrate knowledge they should not possess, and (2) if LLMs can predict story characters' next actions based on their own knowledge vs. objective truths they do not know. Results reveal that most current state-of-the-art LLMs achieve near-random performance on both tasks, and are substantially inferior to humans. We argue future LLM research should place more weight on the abilities of knowledge estimation and intention understanding.
- Abstract(参考訳): 認知人類学は、人間の知能の区別が、他人の知識状態を推測し、その意図を理解する能力にあることを示唆している。
比較すると、最も近い動物であるチンパンジーは、それを行う能力に欠けています。
本稿では,知識状態のトラッキングと推定の分野でのLLMの性能を評価することを目的とする。
LLMがストーリーキャラクタの持つべきでない知識をいつ検出できるか、そして、LLMが自身の知識に基づいてストーリーキャラクタの次のアクションを予測できるかどうかを、彼らが知らない客観的真実とを比較検討する2つのタスクを設計する。
その結果,現在のLLMは両タスクにおいてほぼランダムな性能を示し,人間にはかなり劣っていることがわかった。
今後のLLM研究は、知識推定と意図的理解の能力に重きを置くべきだ、と我々は主張する。
関連論文リスト
- Why Did Apple Fall To The Ground: Evaluating Curiosity In Large Language Model [67.37154331548413]
大規模言語モデル(LLM)が示す好奇心の程度を評価するための包括的評価フレームワークを設計する。
その結果、LLMは人間よりも知識の渇きが強いが、不確実な環境に直面すると保守的な選択をしがちであることがわかった。
これらの結果から,LLMはヒトと同様の好奇心を示す可能性が示唆され,今後の学習能力の発達に対する実験的支援が期待できる。
論文 参考訳(メタデータ) (2025-10-23T15:05:17Z) - Evidence for Limited Metacognition in LLMs [2.538209532048867]
LLMにおけるメタ認知能力を定量的に評価するための新しい手法を提案する。
非ヒト動物におけるメタ認知の研究からインスピレーションを得て、我々のアプローチは、モデルによる自己申告を行い、その代わりに、モデルが内部状態の知識を戦略的に展開できる程度にテストする。
論文 参考訳(メタデータ) (2025-09-25T20:30:15Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。
流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。
本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文 参考訳(メタデータ) (2025-02-11T02:31:09Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - Can Language Models Recognize Convincing Arguments? [12.458437450959416]
大規模言語モデル(LLM)は、説得力のある物語を創造し広める可能性について懸念を提起している。
本研究は、説得力のある議論を検知し、その説得力に関する洞察を得るための性能について研究する。
論文 参考訳(メタデータ) (2024-03-31T17:38:33Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。