論文の概要: RecToM: A Benchmark for Evaluating Machine Theory of Mind in LLM-based Conversational Recommender Systems
- arxiv url: http://arxiv.org/abs/2511.22275v1
- Date: Thu, 27 Nov 2025 09:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.494959
- Title: RecToM: A Benchmark for Evaluating Machine Theory of Mind in LLM-based Conversational Recommender Systems
- Title(参考訳): RecToM:LLMを用いた会話レコメンダシステムにおけるマインドマシン理論の評価ベンチマーク
- Authors: Mengfan Li, Xuanhua Shi, Yang Deng,
- Abstract要約: 本稿では,大規模言語モデル評価のための新しいベンチマークであるRecToMを提案する。
RecToMは認知推論と行動予測という2つの相補的な側面に焦点を当てている。
最先端のLCMに関する大規模な実験は、RecToMが大きな課題となることを示した。
- 参考スコア(独自算出の注目度): 23.229692182223157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language models are revolutionizing the conversational recommender systems through their impressive capabilities in instruction comprehension, reasoning, and human interaction. A core factor underlying effective recommendation dialogue is the ability to infer and reason about users' mental states (such as desire, intention, and belief), a cognitive capacity commonly referred to as Theory of Mind. Despite growing interest in evaluating ToM in LLMs, current benchmarks predominantly rely on synthetic narratives inspired by Sally-Anne test, which emphasize physical perception and fail to capture the complexity of mental state inference in realistic conversational settings. Moreover, existing benchmarks often overlook a critical component of human ToM: behavioral prediction, the ability to use inferred mental states to guide strategic decision-making and select appropriate conversational actions for future interactions. To better align LLM-based ToM evaluation with human-like social reasoning, we propose RecToM, a novel benchmark for evaluating ToM abilities in recommendation dialogues. RecToM focuses on two complementary dimensions: Cognitive Inference and Behavioral Prediction. The former focus on understanding what has been communicated by inferring the underlying mental states. The latter emphasizes what should be done next, evaluating whether LLMs can leverage these inferred mental states to predict, select, and assess appropriate dialogue strategies. Extensive experiments on state-of-the-art LLMs demonstrate that RecToM poses a significant challenge. While the models exhibit partial competence in recognizing mental states, they struggle to maintain coherent, strategic ToM reasoning throughout dynamic recommendation dialogues, particularly in tracking evolving intentions and aligning conversational strategies with inferred mental states.
- Abstract(参考訳): 大規模言語モデルは、命令理解、推論、ヒューマンインタラクションにおける印象的な能力を通じて、会話レコメンデータシステムに革命をもたらしています。
効果的なレコメンデーションの対話の根底にある要素は、ユーザーの精神状態(欲望、意図、信念など)を推測し、推論する能力である。
LLMにおけるToM評価への関心が高まりつつあるにもかかわらず、現在のベンチマークは主にサリー・アンテストに触発された合成物語に依存しており、身体的知覚を強調し、現実的な会話環境における精神状態推論の複雑さを捉えるのに失敗している。
さらに、既存のベンチマークは人間のToMの重要な構成要素である行動予測、推論された精神状態を使用して戦略的意思決定をガイドし、将来の対話に適切な会話行動を選択する能力などを見落としていることが多い。
LLMに基づくToM評価と人間的な社会的推論との整合性を改善するために,レコメンデーション対話におけるToM能力評価のための新しいベンチマークであるRecToMを提案する。
RecToMは認知推論と行動予測という2つの相補的な側面に焦点を当てている。
前者は、根底にある精神状態の推測によって、何がコミュニケーションされたかを理解することに重点を置いている。
後者は次に何をすべきかを強調し、LLMがこれらの推論された精神状態を利用して適切な対話戦略を予測、選択、評価できるかどうかを評価する。
最先端のLCMに関する大規模な実験は、RecToMが大きな課題となることを示した。
モデルは精神状態を認識する上で部分的な能力を示すが、動的レコメンデーションダイアログ全体、特に進化する意図の追跡と、推論された精神状態との会話戦略の整合において、一貫性のある戦略的ToM推論を維持するのに苦労している。
関連論文リスト
- PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues [27.231701486961917]
本稿では,大規模言語モデルのマインド能力理論を評価するためのベンチマークであるPersuasiveToMを提案する。
フレームワークには、ToM ReasoningとToM Applicationという2つのコアタスクが含まれています。
PersuasiveToMの目的は、複雑な心理的活動に焦点を当てたLSMのToM推論能力を効果的に評価することである。
論文 参考訳(メタデータ) (2025-02-28T13:04:04Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Rational Sensibility: LLM Enhanced Empathetic Response Generation Guided by Self-presentation Theory [8.439724621886779]
LLM(Large Language Models)の開発は、人間中心の人工知能(AGI)に希望の光を与えている。
共感は人間にとって重要な感情的属性として機能し、人間中心のAGIにおいて不定の役割を果たす。
本稿では,社会学における自己表現理論にインスパイアされた革新的なエンコーダモジュールを設計する。
論文 参考訳(メタデータ) (2023-12-14T07:38:12Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。