論文の概要: HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.16755v1
- Date: Wed, 25 Oct 2023 16:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:42:23.921669
- Title: HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models
- Title(参考訳): HI-TOM:大規模言語モデルにおける高次マインド推論理論の評価ベンチマーク
- Authors: Yinghui He, Yufan Wu, Yilin Jia, Rada Mihalcea, Yulong Chen, Naihao
Deng
- Abstract要約: 心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
- 参考スコア(独自算出の注目度): 31.831042765744204
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Theory of Mind (ToM) is the ability to reason about one's own and others'
mental states. ToM plays a critical role in the development of intelligence,
language understanding, and cognitive processes. While previous work has
primarily focused on first and second-order ToM, we explore higher-order ToM,
which involves recursive reasoning on others' beliefs. We introduce HI-TOM, a
Higher Order Theory of Mind benchmark. Our experimental evaluation using
various Large Language Models (LLMs) indicates a decline in performance on
higher-order ToM tasks, demonstrating the limitations of current LLMs. We
conduct a thorough analysis of different failure cases of LLMs, and share our
thoughts on the implications of our findings on the future of NLP.
- Abstract(参考訳): 心の理論(りょうせい、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
ToMは知性、言語理解、認知プロセスの発展において重要な役割を果たしている。
これまでの研究は主に1階と2階のToMに焦点を当ててきたが、我々は他人の信念を再帰的に推論する高階のToMについて検討した。
本稿では,高次マインド理論ベンチマークHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,ToMタスクの性能低下が示唆され,現在のLLMの限界が示されている。
我々は,LSMのさまざまな障害事例を徹底的に分析し,NLPの将来に関する知見の意義について考察する。
関連論文リスト
- Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning [13.545981051703682]
LLMにおける心の理論(ToM)は近年,研究の中心的対象となっている。
LLMベンチマーク、ToMアドオン、ToM Probing、ToMの公式モデルなど、AIのさまざまなコミュニティにおけるいくつかの作業行を特定します。
認知タスクに使用される動的環境にインスパイアされたToM能力の評価を改善することを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:06:48Z) - Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。
本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文 参考訳(メタデータ) (2024-07-08T14:58:29Z) - Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models [52.894048516550065]
ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。
また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:24:31Z) - Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses [11.121931601655174]
心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。
進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
論文 参考訳(メタデータ) (2024-06-09T05:57:59Z) - NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding [55.38254464415964]
現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。
我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
論文 参考訳(メタデータ) (2024-04-21T11:51:13Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks for Exploring Theory of Mind [3.9599054392856483]
ToMChallengesは,Sally-Anne と Smarties のテストに基づいて,多種多様なタスクを用いて,心の理論を総合的に評価するためのデータセットである。
評価結果と誤差分析により,LLMはプロンプトやタスク間で不整合な挙動を示す。
論文 参考訳(メタデータ) (2023-05-24T11:54:07Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。