論文の概要: A Systematic Review on the Evaluation of Large Language Models in Theory of Mind Tasks
- arxiv url: http://arxiv.org/abs/2502.08796v1
- Date: Wed, 12 Feb 2025 21:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 20:05:35.007025
- Title: A Systematic Review on the Evaluation of Large Language Models in Theory of Mind Tasks
- Title(参考訳): 思考課題論における大規模言語モデルの評価に関する体系的考察
- Authors: Karahan Sarıtaş, Kıvanç Tezören, Yavuz Durmazkeser,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のToMタスク実行能力を評価するための現在の取り組みを整理する。
文学における繰り返しのテーマは、LLMがToMタスクにおける能力の増大を示す一方で、人間の認知能力のエミュレーションにおいて大きなギャップが持続していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, evaluating the Theory of Mind (ToM) capabilities of large language models (LLMs) has received significant attention within the research community. As the field rapidly evolves, navigating the diverse approaches and methodologies has become increasingly complex. This systematic review synthesizes current efforts to assess LLMs' ability to perform ToM tasks, an essential aspect of human cognition involving the attribution of mental states to oneself and others. Despite notable advancements, the proficiency of LLMs in ToM remains a contentious issue. By categorizing benchmarks and tasks through a taxonomy rooted in cognitive science, this review critically examines evaluation techniques, prompting strategies, and the inherent limitations of LLMs in replicating human-like mental state reasoning. A recurring theme in the literature reveals that while LLMs demonstrate emerging competence in ToM tasks, significant gaps persist in their emulation of human cognitive abilities.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の心の理論(ToM)能力の評価が研究コミュニティで注目されている。
分野が急速に進化するにつれて、様々なアプローチや方法論のナビゲートがますます複雑になっている。
この体系的なレビューは、精神状態の自己および他者への帰属に関わる人間の認知の本質的な側面である、ToMタスクを実行するLLMの能力を評価するための現在の取り組みを合成する。
顕著な進歩にもかかわらず、ToMにおけるLLMの熟練性は論争の的となっている。
本研究は,認知科学に根ざした分類学を通じて,ベンチマークやタスクを分類することにより,人間のような精神状態の推論を再現する上でのLCMの評価手法,戦略の促進,本質的な限界について批判的に考察する。
文学における繰り返しのテーマは、LLMがToMタスクにおける能力の増大を示す一方で、人間の認知能力のエミュレーションにおいて大きなギャップが持続していることを示している。
関連論文リスト
- Theory of Mind in Large Language Models: Assessment and Enhancement [14.41464477095448]
大きな言語モデル(LLM)は、日々の生活にますます統合されていく。
人間の精神状態を理解し、反応する能力を評価し、強化することが重要である。
論文 参考訳(メタデータ) (2025-04-26T10:17:48Z) - A Call for New Recipes to Enhance Spatial Reasoning in MLLMs [85.67171333213301]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - Rethinking Theory of Mind Benchmarks for LLMs: Towards A User-Centered Perspective [24.27038998164743]
Theory-of-Mind (ToM) タスクは、人間がLMのToM能力をベンチマークするために設計されている。
このアプローチにはいくつかの制限があります。
ヒューマン・コンピュータ・インタラクション(HCI)の観点から、これらの制限はToMベンチマークにおけるToMの定義と基準を再考するきっかけとなる。
論文 参考訳(メタデータ) (2025-04-15T03:44:43Z) - VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。
VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。
GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - A Survey on Human-Centric LLMs [11.49752599240738]
大型言語モデル(LLM)は人間の認知と行動をシミュレートすることができる。
この調査は個々のタスクと集合タスクの両方のパフォーマンスに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-20T12:34:44Z) - ToMBench: Benchmarking Theory of Mind in Large Language Models [41.565202027904476]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。
既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。
ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文 参考訳(メタデータ) (2024-02-23T02:05:46Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。