Fugu-MT 論文翻訳(概要): FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions

論文の概要: FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions

arxiv url: http://arxiv.org/abs/2310.15421v3
Date: Tue, 31 Oct 2023 17:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 21:57:48.214868
Title: FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions
Title（参考訳）: FANToM: インタラクションにおける心のストレステストマシン理論のベンチマーク
Authors: Hyunwoo Kim, Melanie Sclar, Xuhui Zhou, Ronan Le Bras, Gunhee Kim, Yejin Choi, Maarten Sap
Abstract要約: 現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
参考スコア（独自算出の注目度）: 94.61530480991627
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Theory of mind (ToM) evaluations currently focus on testing models using passive narratives that inherently lack interactivity. We introduce FANToM, a new benchmark designed to stress-test ToM within information-asymmetric conversational contexts via question answering. Our benchmark draws upon important theoretical requisites from psychology and necessary empirical considerations when evaluating large language models (LLMs). In particular, we formulate multiple types of questions that demand the same underlying reasoning to identify illusory or false sense of ToM capabilities in LLMs. We show that FANToM is challenging for state-of-the-art LLMs, which perform significantly worse than humans even with chain-of-thought reasoning or fine-tuning.
Abstract（参考訳）: 心の理論(ToM)評価は、相互作用性に本質的に欠ける受動的物語を用いたテストモデルに焦点を当てている。本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。本ベンチマークは,大規模言語モデル(llm)の評価において,心理学から重要な理論的要件と必要な経験的考察を導出する。特に,LLMにおける視覚的・虚偽のToM能力を識別するために,同じ推論を要求される複数の質問を定式化する。 FANToMは、チェーン・オブ・シークレット・推論や微調整でさえも、人間よりもはるかにパフォーマンスが悪く、最先端のLLMでは困難であることを示す。

関連論文リスト

Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models [10.629439705877054]
本研究では,大規模言語モデル (LLM) が真の心の理論 (ToM) 能力を示すかどうかを考察する。 ToMデータセットには,古典的かつ摂動的な疑似信念タスクを含む,手作りでリッチな注釈付きデータセットが導入されている。タスク摂動下でのToM能力の急激な低下を示すとともに,ToMの頑健な形態が存在するかどうかを疑問視する。
論文参考訳（メタデータ） (2026-02-25T16:24:35Z)
To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文参考訳（メタデータ） (2026-02-11T08:16:13Z)
MM-THEBench: Do Reasoning MLLMs Think Reasonably? [45.23711313374087]
MLLMの推論における中間CoTの幻覚評価のための総合的なベンチマークであるMM-theBenchを紹介する。 MM-theBenchは、認知次元を基盤としたきめ細かい分類法、検証された推論アノテーションを備えた多様なデータ、多段階の自動評価フレームワークを備えている。
論文参考訳（メタデータ） (2026-01-30T09:17:50Z)
Reasoning Promotes Robustness in Theory of Mind Tasks [0.26945563448932225]
大規模言語モデル(LLM)は、最近、Theory of Mind(ToM)テストで強いパフォーマンスを示している。本稿では,機械心理学実験の新たな適応法と確立されたベンチマークの結果を用いて,ToMタスクにおけるそのような推論モデルの挙動について検討する。
論文参考訳（メタデータ） (2026-01-23T16:01:24Z)
MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文参考訳（メタデータ） (2025-09-15T19:06:10Z)
Rethinking Theory of Mind Benchmarks for LLMs: Towards A User-Centered Perspective [24.27038998164743]
Theory-of-Mind (ToM) タスクは、人間がLMのToM能力をベンチマークするために設計されている。このアプローチにはいくつかの制限があります。ヒューマン・コンピュータ・インタラクション(HCI)の観点から、これらの制限はToMベンチマークにおけるToMの定義と基準を再考するきっかけとなる。
論文参考訳（メタデータ） (2025-04-15T03:44:43Z)
Re-evaluating Theory of Mind evaluation in large language models [3.262532929657758]
認知科学からインスピレーションを得て,大規模言語モデルにおけるToM評価の状況を再評価する。 LLMがToMを持つかどうかについての意見の相違の主な理由は、モデルが人間の行動にマッチするかどうかの明確さの欠如である。 ToMと実用的コミュニケーションの関係など,今後の研究の方向性について論じる。
論文参考訳（メタデータ） (2025-02-28T14:36:57Z)
Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文参考訳（メタデータ） (2024-07-08T14:58:29Z)
NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding [55.38254464415964]
現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
論文参考訳（メタデータ） (2024-04-21T11:51:13Z)
What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文参考訳（メタデータ） (2024-03-20T11:27:20Z)
Think Twice: Perspective-Taking Improves Large Language Models' Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2023-11-16T22:49:27Z)
Towards A Holistic Landscape of Situated Theory of Mind in Large Language Models [14.491223187047378]
大言語モデル(LLM)は、心の理論(ToM)の出現の可能性について、かなりの関心と議論を巻き起こしている。最近のいくつかの調査では、これらのモデルに堅牢なToMが欠如していることが判明し、新しいベンチマークの開発に対する需要が高まっている。マシンToMを7つのメンタルステートカテゴリに分類し、既存のベンチマークをデライン化して、探索されていないToMの側面を特定します。
論文参考訳（メタデータ） (2023-10-30T15:12:09Z)
HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文参考訳（メタデータ） (2023-10-25T16:41:15Z)
Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文参考訳（メタデータ） (2023-05-24T06:14:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。