論文の概要: ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind
- arxiv url: http://arxiv.org/abs/2501.08838v1
- Date: Wed, 15 Jan 2025 14:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:26.349844
- Title: ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind
- Title(参考訳): トマト:心のベンチマーク理論のためのロールプレイング LLM の精神状態のバーバリゼーション
- Authors: Kazutoshi Shinoda, Nobukatsu Hojo, Kyosuke Nishida, Saki Mizuno, Keita Suzuki, Ryo Masumura, Hiroaki Sugiyama, Kuniko Saito,
- Abstract要約: ToMATOは、会話よりもマルチチョイスQAとして定式化された新しいToMベンチマークである。
私たちは、信念、意図、欲望、感情、知識の5つのカテゴリにまたがって、一階と二階の精神状態を取ります。
ToMATOは5.4kの質問、753の会話、15の性格特性パターンで構成されている。
- 参考スコア(独自算出の注目度): 25.524355451378593
- License:
- Abstract: Existing Theory of Mind (ToM) benchmarks diverge from real-world scenarios in three aspects: 1) they assess a limited range of mental states such as beliefs, 2) false beliefs are not comprehensively explored, and 3) the diverse personality traits of characters are overlooked. To address these challenges, we introduce ToMATO, a new ToM benchmark formulated as multiple-choice QA over conversations. ToMATO is generated via LLM-LLM conversations featuring information asymmetry. By employing a prompting method that requires role-playing LLMs to verbalize their thoughts before each utterance, we capture both first- and second-order mental states across five categories: belief, intention, desire, emotion, and knowledge. These verbalized thoughts serve as answers to questions designed to assess the mental states of characters within conversations. Furthermore, the information asymmetry introduced by hiding thoughts from others induces the generation of false beliefs about various mental states. Assigning distinct personality traits to LLMs further diversifies both utterances and thoughts. ToMATO consists of 5.4k questions, 753 conversations, and 15 personality trait patterns. Our analysis shows that this dataset construction approach frequently generates false beliefs due to the information asymmetry between role-playing LLMs, and effectively reflects diverse personalities. We evaluate nine LLMs on ToMATO and find that even GPT-4o mini lags behind human performance, especially in understanding false beliefs, and lacks robustness to various personality traits.
- Abstract(参考訳): 既存の心の理論(ToM)ベンチマークは、現実世界のシナリオから3つの側面に分かれている。
1)信仰などの限られた精神状態を評価する。
2)虚偽の信念は包括的に調べられず、
3)キャラクタの多彩な性格特性は見落としている。
これらの課題に対処するため,会話よりも複数選択QAとして定式化されたToMベンチマークであるToMATOを紹介した。
ToMATOは、情報非対称性を特徴とするLLM-LLM会話を介して生成される。
各発話の前に、ロールプレイング LLM による思考の言葉化を要求するプロンプト手法を用いることで、信念、意図、欲望、感情、知識の5つのカテゴリにまたがる一階と二階の精神状態を捉える。
これらの言葉化された思考は、会話の中のキャラクターの精神状態を評価するために設計された質問に対する答えとなる。
さらに、他者から考えを隠すことによってもたらされる情報非対称性は、様々な精神状態に関する誤った信念を生み出す。
LLMに異なる性格特性を割り当てることで、発話と思考がさらに多様化する。
ToMATOは5.4kの質問、753の会話、15の性格特性パターンで構成されている。
分析の結果,このデータセット構築手法はロールプレイングLLM間の情報非対称性により,誤った信念を頻繁に生成し,多様な個人性を効果的に反映していることがわかった。
ToMATO上での9つのLCMを評価し,GPT-4oのミニラグが,特に虚偽の信念の理解に遅れており,様々な性格特性に対する堅牢性が欠如していることを見出した。
関連論文リスト
- Can LLM Agents Maintain a Persona in Discourse? [3.286711575862228]
大規模言語モデル(LLM)は、教育、法律、医学など、様々な分野でその能力を利用する会話エージェントとして広く利用されている。
LLMは、しばしばコンテキストシフトの振る舞いを受け、一貫性と解釈可能なパーソナリティ整合性の相互作用が欠如する。
LLMはパーソナライズされた対話へと導くことができるが、その性格特性を維持する能力はモデルと談話設定の組み合わせによって大きく異なる。
論文 参考訳(メタデータ) (2025-02-17T14:36:39Z) - The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける長期的個人的背景を理解することの重要性を検証する。
現実的な評価シナリオにおける機械のToM能力の評価を行う。
論文 参考訳(メタデータ) (2025-01-03T09:04:45Z) - Does ChatGPT Have a Mind? [0.0]
本稿では,ChatGPT のような大規模言語モデル (LLM) が,信念,願望,意図を包含する真の民間心理学を持っているか否かに着目し,心を持っているかどうかを検討する。
まず, 情報, 因果, 構造, テレオセマンティックな説明を含む様々な哲学的表現理論を調査し, LLMがそれぞれの提案する重要な条件を満たすことを論じる。
第2に, LLM が行動に頑健な態度を示すか否かを考察する。
論文 参考訳(メタデータ) (2024-06-27T00:21:16Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。
LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。
LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文 参考訳(メタデータ) (2024-06-20T19:50:56Z) - Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models [52.894048516550065]
ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。
また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:24:31Z) - Identifying Multiple Personalities in Large Language Models with
External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。
近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。
しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文 参考訳(メタデータ) (2024-02-22T18:57:20Z) - OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models [17.042114879350788]
N-ToM(Neural Theory-of-Mind)は、他者の精神状態を理解し、追跡する能力を持つ機械である。
OpenToMは、より長く明確な物語、明示的な性格特性、キャラクタの意図によって引き起こされる行動でN-ToMを評価するための新しいベンチマークである。
身体世界における精神状態の特定の側面をモデル化する上では最先端のLSMが活躍するが、心理学世界におけるキャラクターの精神状態を追跡する際には不足することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T20:35:06Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文 参考訳(メタデータ) (2023-10-04T06:47:58Z) - Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using
PsychoBench [83.41621219298489]
大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。
サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。
我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
論文 参考訳(メタデータ) (2023-10-02T17:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。