論文の概要: Theory of Mind in Large Language Models: Assessment and Enhancement
- arxiv url: http://arxiv.org/abs/2505.00026v1
- Date: Sat, 26 Apr 2025 10:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.103786
- Title: Theory of Mind in Large Language Models: Assessment and Enhancement
- Title(参考訳): 大規模言語モデルにおける心の理論:評価と拡張
- Authors: Ruirui Chen, Weifeng Jiang, Chengwei Qin, Cheston Tan,
- Abstract要約: 大きな言語モデル(LLM)は、日々の生活にますます統合されていく。
人間の精神状態を理解し、反応する能力を評価し、強化することが重要である。
- 参考スコア(独自算出の注目度): 14.41464477095448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory of Mind (ToM)-the ability to infer and reason about others' mental states-is fundamental to human social intelligence. As Large Language Models (LLMs) become increasingly integrated into daily life, it is crucial to assess and enhance their capacity to interpret and respond to human mental states. In this paper, we review LLMs' ToM capabilities by examining both evaluation benchmarks and the strategies designed to improve them. We focus on widely adopted story-based benchmarks and provide an in-depth analysis of methods aimed at enhancing ToM in LLMs. Furthermore, we outline promising future research directions informed by recent benchmarks and state-of-the-art approaches. Our survey serves as a valuable resource for researchers interested in advancing LLMs' ToM capabilities.
- Abstract(参考訳): 心の理論 (ToM) - 他人の精神状態について推論し、推論する能力は、人間の社会的知性の基本である。
大規模言語モデル(LLM)が日々の生活にますます統合されるにつれて、人間の精神状態の解釈と対応能力の評価と向上が不可欠である。
本稿では,LLMのToM機能について,評価ベンチマークと改善戦略の両面から検討する。
我々は、広く採用されているストーリーベースのベンチマークに注目し、LLMにおけるToMの強化を目的とした手法の詳細な分析を行う。
さらに、最近のベンチマークや最先端のアプローチから得られる将来的な研究の方向性について概説する。
我々の調査は、LLMのToM能力の進歩に関心を持つ研究者にとって貴重な情報源となっている。
関連論文リスト
- Rethinking Theory of Mind Benchmarks for LLMs: Towards A User-Centered Perspective [24.27038998164743]
Theory-of-Mind (ToM) タスクは、人間がLMのToM能力をベンチマークするために設計されている。
このアプローチにはいくつかの制限があります。
ヒューマン・コンピュータ・インタラクション(HCI)の観点から、これらの制限はToMベンチマークにおけるToMの定義と基準を再考するきっかけとなる。
論文 参考訳(メタデータ) (2025-04-15T03:44:43Z) - Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - A Systematic Review on the Evaluation of Large Language Models in Theory of Mind Tasks [0.0]
本稿では,大規模言語モデル(LLM)のToMタスク実行能力を評価するための現在の取り組みを整理する。
文学における繰り返しのテーマは、LLMがToMタスクにおける能力の増大を示す一方で、人間の認知能力のエミュレーションにおいて大きなギャップが持続していることを示している。
論文 参考訳(メタデータ) (2025-02-12T21:19:30Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - ToMBench: Benchmarking Theory of Mind in Large Language Models [41.565202027904476]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。
既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。
ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文 参考訳(メタデータ) (2024-02-23T02:05:46Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。