Fugu-MT 論文翻訳(概要): Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses

論文の概要: Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses

arxiv url: http://arxiv.org/abs/2406.05659v1
Date: Sun, 9 Jun 2024 05:57:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 18:36:48.537734
Title: Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses
Title（参考訳）: LLMは人間ライクな推論を禁止しているか? オープンエンド応答のためのLLMにおける心の理論の評価
Authors: Maryam Amirizaniani, Elias Martin, Maryna Sivachenko, Afra Mashhadi, Chirag Shah,
Abstract要約: 心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
参考スコア（独自算出の注目度）: 11.121931601655174
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Theory of Mind (ToM) reasoning entails recognizing that other individuals possess their own intentions, emotions, and thoughts, which is vital for guiding one's own thought processes. Although large language models (LLMs) excel in tasks such as summarization, question answering, and translation, they still face challenges with ToM reasoning, especially in open-ended questions. Despite advancements, the extent to which LLMs truly understand ToM reasoning and how closely it aligns with human ToM reasoning remains inadequately explored in open-ended scenarios. Motivated by this gap, we assess the abilities of LLMs to perceive and integrate human intentions and emotions into their ToM reasoning processes within open-ended questions. Our study utilizes posts from Reddit's ChangeMyView platform, which demands nuanced social reasoning to craft persuasive responses. Our analysis, comparing semantic similarity and lexical overlap metrics between responses generated by humans and LLMs, reveals clear disparities in ToM reasoning capabilities in open-ended questions, with even the most advanced models showing notable limitations. To enhance LLM capabilities, we implement a prompt tuning method that incorporates human intentions and emotions, resulting in improvements in ToM reasoning performance. However, despite these improvements, the enhancement still falls short of fully achieving human-like reasoning. This research highlights the deficiencies in LLMs' social reasoning and demonstrates how integrating human intentions and emotions can boost their effectiveness.
Abstract（参考訳）: 心の理論(Theory of Mind、ToM)は、他者が自身の思考過程を導くのに不可欠である自身の意図、感情、思考を持っていると認識することを必要とする。大きな言語モデル(LLM)は要約や質問応答、翻訳といったタスクに優れていますが、特にオープンな質問ではToM推論の課題に直面しています。進歩にもかかわらず、LLMがToM推論を本当に理解している範囲と、それが人間のToM推論とどの程度密接に一致しているかは、未解決のシナリオで不適切に調査されている。このギャップによって、オープンエンドの質問において、人間の意図や感情をToM推論プロセスに統合するLLMの能力を評価する。私たちの研究はRedditのChangeMyViewプラットフォームからの投稿を利用しています。我々の分析は、人間とLLMが生成した応答のセマンティックな類似度と語彙的重複度を比較することで、オープンエンド質問におけるToM推論能力の明確な相違を明らかにし、最も高度なモデルでさえも顕著な限界を示している。 LLMの能力を高めるために,人間の意図や感情を組み込んだプロンプトチューニング手法を実装し,結果としてToM推論性能が向上した。しかし、これらの改善にもかかわらず、強化は人間のような推論を完全に達成するには至っていない。この研究は、LLMの社会的推論の欠陥を強調し、人間の意図と感情の統合が、その効果をいかに促進するかを示す。

関連論文リスト

XToM: Exploring the Multilingual Theory of Mind for Large Language Models [57.9821865189077]
LLMにおける既存の心の理論の評価は英語に限られている。 XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文参考訳（メタデータ） (2025-06-03T05:23:25Z)
Effects of Theory of Mind and Prosocial Beliefs on Steering Human-Aligned Behaviors of LLMs in Ultimatum Games [17.615991993062455]
交渉課題におけるエージェント的行動と人間の規範を整合させる上での思考理論(ToM)推論の役割について検討する。 ToM推論は、行動整合性、意思決定整合性、交渉結果を高める。本研究は,人間とAIの相互作用と協調的意思決定の促進におけるToMの役割の理解に寄与する。
論文参考訳（メタデータ） (2025-05-30T06:23:52Z)
How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文参考訳（メタデータ） (2025-03-01T03:35:56Z)
Re-evaluating Theory of Mind evaluation in large language models [3.262532929657758]
認知科学からインスピレーションを得て,大規模言語モデルにおけるToM評価の状況を再評価する。 LLMがToMを持つかどうかについての意見の相違の主な理由は、モデルが人間の行動にマッチするかどうかの明確さの欠如である。 ToMと実用的コミュニケーションの関係など,今後の研究の方向性について論じる。
論文参考訳（メタデータ） (2025-02-28T14:36:57Z)
PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues [27.231701486961917]
心の理論 (ToM) として知られる自己や他者の精神状態を理解し予測する能力は、効果的な社会的相互作用に不可欠である。近年,Large Language Models (LLM) がToMの形式を示すかどうかを評価する研究が進んでいる。本稿では,説得対話におけるLLMのToM能力を評価するためのベンチマークであるPersuasiveToMを提案する。
論文参考訳（メタデータ） (2025-02-28T13:04:04Z)
The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。本稿では,ToMにおける個人的背景に関する包括的文脈理解の重要性を検証する。本稿では,古典小説の登場人物をベースとした1,035ToM質問からなるCharToMベンチマークを紹介する。
論文参考訳（メタデータ） (2025-01-03T09:04:45Z)
Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文参考訳（メタデータ） (2024-07-08T14:58:29Z)
Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models [52.894048516550065]
ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
論文参考訳（メタデータ） (2024-06-19T18:24:31Z)
LLM Theory of Mind and Alignment: Opportunities and Risks [0.0]
大きな言語モデル (LLM) が心の理論 (ToM) を持つかどうかに注目が集まっている。本稿では,LLM ToMが人間:LLMの相互作用に現れる重要な領域を個人およびグループレベルで同定する。それは、潜在的な意味を幅広い範囲で明らかにし、将来の研究の最も急進的な領域を示唆している。
論文参考訳（メタデータ） (2024-05-13T19:52:16Z)
Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。 VoTはLLMの空間的推論能力を著しく向上させる。
論文参考訳（メタデータ） (2024-04-04T17:45:08Z)
Should We Fear Large Language Models? A Structural Analysis of the Human Reasoning System for Elucidating LLM Capabilities and Risks Through the Lens of Heidegger's Philosophy [0.0]
本研究では,Large Language Models(LLM)の能力とリスクについて検討する。 LLM内の単語関係の統計的パターンと、Martin Heidegger氏の概念である"ready-to-hand"と"present-at-hand"の間には、革新的な並列性がある。以上の結果から, LLMには直接的説明推論と擬似論理推論の能力があるが, 真理的推論に乏しく, 創造的推論能力がないことが明らかとなった。
論文参考訳（メタデータ） (2024-03-05T19:40:53Z)
ToMBench: Benchmarking Theory of Mind in Large Language Models [42.80231362967291]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。 ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文参考訳（メタデータ） (2024-02-23T02:05:46Z)
Think Twice: Perspective-Taking Improves Large Language Models' Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2023-11-16T22:49:27Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文参考訳（メタデータ） (2023-05-24T07:33:34Z)
Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2023-03-22T22:53:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。