論文の概要: Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses
- arxiv url: http://arxiv.org/abs/2406.05659v1
- Date: Sun, 9 Jun 2024 05:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:36:48.537734
- Title: Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses
- Title(参考訳): LLMは人間ライクな推論を禁止しているか? オープンエンド応答のためのLLMにおける心の理論の評価
- Authors: Maryam Amirizaniani, Elias Martin, Maryna Sivachenko, Afra Mashhadi, Chirag Shah,
- Abstract要約: 心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。
進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
- 参考スコア(独自算出の注目度): 11.121931601655174
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Theory of Mind (ToM) reasoning entails recognizing that other individuals possess their own intentions, emotions, and thoughts, which is vital for guiding one's own thought processes. Although large language models (LLMs) excel in tasks such as summarization, question answering, and translation, they still face challenges with ToM reasoning, especially in open-ended questions. Despite advancements, the extent to which LLMs truly understand ToM reasoning and how closely it aligns with human ToM reasoning remains inadequately explored in open-ended scenarios. Motivated by this gap, we assess the abilities of LLMs to perceive and integrate human intentions and emotions into their ToM reasoning processes within open-ended questions. Our study utilizes posts from Reddit's ChangeMyView platform, which demands nuanced social reasoning to craft persuasive responses. Our analysis, comparing semantic similarity and lexical overlap metrics between responses generated by humans and LLMs, reveals clear disparities in ToM reasoning capabilities in open-ended questions, with even the most advanced models showing notable limitations. To enhance LLM capabilities, we implement a prompt tuning method that incorporates human intentions and emotions, resulting in improvements in ToM reasoning performance. However, despite these improvements, the enhancement still falls short of fully achieving human-like reasoning. This research highlights the deficiencies in LLMs' social reasoning and demonstrates how integrating human intentions and emotions can boost their effectiveness.
- Abstract(参考訳): 心の理論(Theory of Mind、ToM)は、他者が自身の思考過程を導くのに不可欠である自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約や質問応答、翻訳といったタスクに優れていますが、特にオープンな質問ではToM推論の課題に直面しています。
進歩にもかかわらず、LLMがToM推論を本当に理解している範囲と、それが人間のToM推論とどの程度密接に一致しているかは、未解決のシナリオで不適切に調査されている。
このギャップによって、オープンエンドの質問において、人間の意図や感情をToM推論プロセスに統合するLLMの能力を評価する。
私たちの研究はRedditのChangeMyViewプラットフォームからの投稿を利用しています。
我々の分析は、人間とLLMが生成した応答のセマンティックな類似度と語彙的重複度を比較することで、オープンエンド質問におけるToM推論能力の明確な相違を明らかにし、最も高度なモデルでさえも顕著な限界を示している。
LLMの能力を高めるために,人間の意図や感情を組み込んだプロンプトチューニング手法を実装し,結果としてToM推論性能が向上した。
しかし、これらの改善にもかかわらず、強化は人間のような推論を完全に達成するには至っていない。
この研究は、LLMの社会的推論の欠陥を強調し、人間の意図と感情の統合が、その効果をいかに促進するかを示す。
関連論文リスト
- Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。
本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文 参考訳(メタデータ) (2024-07-08T14:58:29Z) - Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models [52.894048516550065]
ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。
また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:24:31Z) - LLM Theory of Mind and Alignment: Opportunities and Risks [0.0]
大きな言語モデル (LLM) が心の理論 (ToM) を持つかどうかに注目が集まっている。
本稿では,LLM ToMが人間:LLMの相互作用に現れる重要な領域を個人およびグループレベルで同定する。
それは、潜在的な意味を幅広い範囲で明らかにし、将来の研究の最も急進的な領域を示唆している。
論文 参考訳(メタデータ) (2024-05-13T19:52:16Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Should We Fear Large Language Models? A Structural Analysis of the Human
Reasoning System for Elucidating LLM Capabilities and Risks Through the Lens
of Heidegger's Philosophy [0.0]
本研究では,Large Language Models(LLM)の能力とリスクについて検討する。
LLM内の単語関係の統計的パターンと、Martin Heidegger氏の概念である"ready-to-hand"と"present-at-hand"の間には、革新的な並列性がある。
以上の結果から, LLMには直接的説明推論と擬似論理推論の能力があるが, 真理的推論に乏しく, 創造的推論能力がないことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-05T19:40:53Z) - ToMBench: Benchmarking Theory of Mind in Large Language Models [42.80231362967291]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。
既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。
ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文 参考訳(メタデータ) (2024-02-23T02:05:46Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。