Fugu-MT 論文翻訳(概要): NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding

論文の概要: NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding

arxiv url: http://arxiv.org/abs/2404.13627v3
Date: Sat, 05 Oct 2024 16:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 14:20:37.649101
Title: NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding
Title（参考訳）: NegotiationToM: ストレステストマシン理論のベンチマーク
Authors: Chunkit Chan, Cheng Jiayang, Yauwai Yim, Zheye Deng, Wei Fan, Haoran Li, Xin Liu, Hongming Zhang, Weiqi Wang, Yangqiu Song,
Abstract要約: 現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
参考スコア（独自算出の注目度）: 55.38254464415964
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have sparked substantial interest and debate concerning their potential emergence of Theory of Mind (ToM) ability. Theory of mind evaluations currently focuses on testing models using machine-generated data or game settings prone to shortcuts and spurious correlations, which lacks evaluation of machine ToM ability in real-world human interaction scenarios. This poses a pressing demand to develop new real-world scenario benchmarks. We introduce NegotiationToM, a new benchmark designed to stress-test machine ToM in real-world negotiation surrounding covered multi-dimensional mental states (i.e., desires, beliefs, and intentions). Our benchmark builds upon the Belief-Desire-Intention (BDI) agent modeling theory and conducts the necessary empirical experiments to evaluate large language models. Our findings demonstrate that NegotiationToM is challenging for state-of-the-art LLMs, as they consistently perform significantly worse than humans, even when employing the chain-of-thought (CoT) method.
Abstract（参考訳）: 大言語モデル(LLM)は、心の理論(ToM)能力の潜在的な出現に関して、大きな関心や議論を引き起こしている。現在、マインド評価の理論は、実世界の人間のインタラクションシナリオにおけるマシンToM能力の評価が欠如しているショートカットや刺激的な相関に傾向のあるマシン生成データやゲーム設定を使用したテストモデルに焦点を当てている。これは、新しい実世界のシナリオベンチマークの開発を迫られている。我々は,多次元精神状態(欲求,信念,意図など)を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。我々のベンチマークはBDIエージェントモデリング理論に基づいており、大規模な言語モデルを評価するために必要な経験実験を行っている。以上の結果から,NegotiationToMは,チェーン・オブ・シント法(CoT法)を用いても,人間よりもはるかに性能が低いため,最先端のLDMでは困難であることが示唆された。

関連論文リスト

ToM-SSI: Evaluating Theory of Mind in Situated Social Interactions [17.2191603793837]
ToM-SSIは、社会的相互作用と空間力学に富んだ環境でToM機能をテストするために設計された新しいベンチマークである。このユニークな設計により、私たちは初めて、複数のエージェントの精神状態の並列性について、協調的・障害物的設定と推論を混合して研究することができる。
論文参考訳（メタデータ） (2025-09-05T12:58:15Z)
Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文参考訳（メタデータ） (2025-04-02T12:58:42Z)
AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind [8.619889123184649]
心の理論 (ToM) は、社会的に知的なエージェントを開発するための鍵である。大規模言語モデル(LLM)の推進に頼っている心の理論への最近のアプローチ本稿では,オープンエンドマシン理論を実現するための自動ベイズマインド理論であるAutoToMを紹介する。
論文参考訳（メタデータ） (2025-02-21T18:57:52Z)
Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。 ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文参考訳（メタデータ） (2025-01-26T00:32:38Z)
Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文参考訳（メタデータ） (2024-12-12T21:29:00Z)
What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文参考訳（メタデータ） (2024-03-20T11:27:20Z)
MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。一方、ヒューマンToMはビデオやテキストの理解以上のものです。人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文参考訳（メタデータ） (2024-01-16T18:59:24Z)
Think Twice: Perspective-Taking Improves Large Language Models' Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2023-11-16T22:49:27Z)
Towards A Holistic Landscape of Situated Theory of Mind in Large Language Models [14.491223187047378]
大言語モデル(LLM)は、心の理論(ToM)の出現の可能性について、かなりの関心と議論を巻き起こしている。最近のいくつかの調査では、これらのモデルに堅牢なToMが欠如していることが判明し、新しいベンチマークの開発に対する需要が高まっている。マシンToMを7つのメンタルステートカテゴリに分類し、既存のベンチマークをデライン化して、探索されていないToMの側面を特定します。
論文参考訳（メタデータ） (2023-10-30T15:12:09Z)
FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文参考訳（メタデータ） (2023-10-24T00:24:11Z)
Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文参考訳（メタデータ） (2023-05-24T06:14:31Z)
A Review on Machine Theory of Mind [16.967933605635203]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、人間の認知の基盤である他者に対する精神状態の属性付け能力である。本稿では,機械ToMにおける信念,欲求,意図に関する最近の進歩を概観する。
論文参考訳（メタデータ） (2023-03-21T04:58:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。