論文の概要: Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning
- arxiv url: http://arxiv.org/abs/2412.13631v1
- Date: Wed, 18 Dec 2024 09:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:52.12555
- Title: Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning
- Title(参考訳): 心の理論:心の理論は推論よりも深い
- Authors: Eitan Wagner, Nitay Alon, Joseph M. Barnby, Omri Abend,
- Abstract要約: LLMにおける心の理論(ToM)は近年,研究の中心的対象となっている。
LLMベンチマーク、ToMアドオン、ToM Probing、ToMの公式モデルなど、AIのさまざまなコミュニティにおけるいくつかの作業行を特定します。
認知タスクに使用される動的環境にインスパイアされたToM能力の評価を改善することを提案する。
- 参考スコア(独自算出の注目度): 13.545981051703682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM) capabilities in LLMs have recently become a central object of investigation. Cognitive science distinguishes between two steps required for ToM tasks: 1) determine whether to invoke ToM, which includes the appropriate Depth of Mentalizing (DoM), or level of recursion required to complete a task; and 2) applying the correct inference given the DoM. In this position paper, we first identify several lines of work in different communities in AI, including LLM benchmarking, ToM add-ons, ToM probing, and formal models for ToM. We argue that recent work in AI tends to focus exclusively on the second step which are typically framed as static logic problems. We conclude with suggestions for improved evaluation of ToM capabilities inspired by dynamic environments used in cognitive tasks.
- Abstract(参考訳): LLMにおける心の理論(ToM)は近年,研究の中心的対象となっている。
認知科学は、ToMタスクに必要な2つのステップを区別する。
1) メンタライゼーションの適切な深さ(DoM)を含むToMを呼び出すか、タスクを完了するために必要な再帰レベルを判断する。
2) DoMが与えられた正しい推論を適用する。
本稿ではまず,LLMベンチマーク,ToMアドオン,ToM Probing,ToMの形式モデルなど,AIの異なるコミュニティにおけるいくつかの作業行を特定する。
私たちは、AIにおける最近の研究は、通常静的論理問題としてフレーム化される2番目のステップにのみ焦点をあてる傾向がある、と論じています。
認知タスクに使用される動的環境にインスパイアされたToM能力の評価を改善することを提案する。
関連論文リスト
- A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - EnigmaToM: Improve LLMs' Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity States [15.557449564031975]
理論・オブ・ミンド(ToM)は人間の相互作用の基本であるが、Large Language Models(LLM)の課題である。
Enigma(エニグマ)の神経知識ベースを統合することでToM推論を強化する新しいニューロシンボリックフレームワークであるEnigmaToMを提案する。
ToMi, HiToM, FANToM などの複数のベンチマークによる実験結果から, EnigmaToM は様々な大きさの LLM における ToM 推論を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-05T10:13:05Z) - Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition [2.089191490381739]
心の理論 (Theory of Mind, ToM) は、他者の精神状態を理解し、反映する能力である。
大規模言語モデル(LLM)は、ToMの初歩的な理解しか持たない。
本稿では,複雑なToMタスクにおけるモデル性能を改善するLLMベースの推論アルゴリズムであるDecompose-ToM'を提案する。
論文 参考訳(メタデータ) (2025-01-15T18:44:01Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Towards A Holistic Landscape of Situated Theory of Mind in Large
Language Models [14.491223187047378]
大言語モデル(LLM)は、心の理論(ToM)の出現の可能性について、かなりの関心と議論を巻き起こしている。
最近のいくつかの調査では、これらのモデルに堅牢なToMが欠如していることが判明し、新しいベンチマークの開発に対する需要が高まっている。
マシンToMを7つのメンタルステートカテゴリに分類し、既存のベンチマークをデライン化して、探索されていないToMの側面を特定します。
論文 参考訳(メタデータ) (2023-10-30T15:12:09Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks for Exploring Theory of Mind [3.9599054392856483]
ToMChallengesは,Sally-Anne と Smarties のテストに基づいて,多種多様なタスクを用いて,心の理論を総合的に評価するためのデータセットである。
評価結果と誤差分析により,LLMはプロンプトやタスク間で不整合な挙動を示す。
論文 参考訳(メタデータ) (2023-05-24T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。