論文の概要: NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding
- arxiv url: http://arxiv.org/abs/2404.13627v2
- Date: Thu, 4 Jul 2024 14:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:14:17.313651
- Title: NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding
- Title(参考訳): NegotiationToM: ストレステストマシン理論のベンチマーク
- Authors: Chunkit Chan, Cheng Jiayang, Yauwai Yim, Zheye Deng, Wei Fan, Haoran Li, Xin Liu, Hongming Zhang, Weiqi Wang, Yangqiu Song,
- Abstract要約: 現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。
我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
- 参考スコア(独自算出の注目度): 55.38254464415964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have sparked substantial interest and debate concerning their potential emergence of Theory of Mind (ToM) ability. Theory of mind evaluations currently focuses on testing models using machine-generated data or game settings prone to shortcuts and spurious correlations, which lacks evaluation of machine ToM ability in real-world human interaction scenarios. This poses a pressing demand to develop new real-world scenario benchmarks. We introduce NegotiationToM, a new benchmark designed to stress-test machine ToM in real-world negotiation surrounding covered multi-dimensional mental states (i.e., desires, beliefs, and intentions). Our benchmark builds upon the Belief-Desire-Intention (BDI) agent modeling theory and conducts the necessary empirical experiments to evaluate large language models. Our findings demonstrate that NegotiationToM is challenging for state-of-the-art LLMs, as they consistently perform significantly worse than humans, even when employing the chain-of-thought (CoT) method.
- Abstract(参考訳): 大言語モデル(LLM)は、心の理論(ToM)能力の潜在的な出現に関して、大きな関心や議論を引き起こしている。
現在、マインド評価の理論は、実世界の人間のインタラクションシナリオにおけるマシンToM能力の評価が欠如しているショートカットや刺激的な相関に傾向のあるマシン生成データやゲーム設定を使用したテストモデルに焦点を当てている。
これは、新しい実世界のシナリオベンチマークの開発を迫られている。
我々は,多次元精神状態(欲求,信念,意図など)を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
我々のベンチマークはBDIエージェントモデリング理論に基づいており、大規模な言語モデルを評価するために必要な経験実験を行っている。
以上の結果から,NegotiationToMは,チェーン・オブ・シント法(CoT法)を用いても,人間よりもはるかに性能が低いため,最先端のLDMでは困難であることが示唆された。
関連論文リスト
- What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Towards A Holistic Landscape of Situated Theory of Mind in Large
Language Models [14.491223187047378]
大言語モデル(LLM)は、心の理論(ToM)の出現の可能性について、かなりの関心と議論を巻き起こしている。
最近のいくつかの調査では、これらのモデルに堅牢なToMが欠如していることが判明し、新しいベンチマークの開発に対する需要が高まっている。
マシンToMを7つのメンタルステートカテゴリに分類し、既存のベンチマークをデライン化して、探索されていないToMの側面を特定します。
論文 参考訳(メタデータ) (2023-10-30T15:12:09Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - A Review on Machine Theory of Mind [16.967933605635203]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、人間の認知の基盤である他者に対する精神状態の属性付け能力である。
本稿では,機械ToMにおける信念,欲求,意図に関する最近の進歩を概観する。
論文 参考訳(メタデータ) (2023-03-21T04:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。