論文の概要: RecToM: A Benchmark for Evaluating Machine Theory of Mind in LLM-based Conversational Recommender Systems
- arxiv url: http://arxiv.org/abs/2511.22275v1
- Date: Thu, 27 Nov 2025 09:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.494959
- Title: RecToM: A Benchmark for Evaluating Machine Theory of Mind in LLM-based Conversational Recommender Systems
- Title(参考訳): RecToM:LLMを用いた会話レコメンダシステムにおけるマインドマシン理論の評価ベンチマーク
- Authors: Mengfan Li, Xuanhua Shi, Yang Deng,
- Abstract要約: 本稿では,大規模言語モデル評価のための新しいベンチマークであるRecToMを提案する。
RecToMは認知推論と行動予測という2つの相補的な側面に焦点を当てている。
最先端のLCMに関する大規模な実験は、RecToMが大きな課題となることを示した。
- 参考スコア(独自算出の注目度): 23.229692182223157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language models are revolutionizing the conversational recommender systems through their impressive capabilities in instruction comprehension, reasoning, and human interaction. A core factor underlying effective recommendation dialogue is the ability to infer and reason about users' mental states (such as desire, intention, and belief), a cognitive capacity commonly referred to as Theory of Mind. Despite growing interest in evaluating ToM in LLMs, current benchmarks predominantly rely on synthetic narratives inspired by Sally-Anne test, which emphasize physical perception and fail to capture the complexity of mental state inference in realistic conversational settings. Moreover, existing benchmarks often overlook a critical component of human ToM: behavioral prediction, the ability to use inferred mental states to guide strategic decision-making and select appropriate conversational actions for future interactions. To better align LLM-based ToM evaluation with human-like social reasoning, we propose RecToM, a novel benchmark for evaluating ToM abilities in recommendation dialogues. RecToM focuses on two complementary dimensions: Cognitive Inference and Behavioral Prediction. The former focus on understanding what has been communicated by inferring the underlying mental states. The latter emphasizes what should be done next, evaluating whether LLMs can leverage these inferred mental states to predict, select, and assess appropriate dialogue strategies. Extensive experiments on state-of-the-art LLMs demonstrate that RecToM poses a significant challenge. While the models exhibit partial competence in recognizing mental states, they struggle to maintain coherent, strategic ToM reasoning throughout dynamic recommendation dialogues, particularly in tracking evolving intentions and aligning conversational strategies with inferred mental states.
- Abstract(参考訳): 大規模言語モデルは、命令理解、推論、ヒューマンインタラクションにおける印象的な能力を通じて、会話レコメンデータシステムに革命をもたらしています。
効果的なレコメンデーションの対話の根底にある要素は、ユーザーの精神状態(欲望、意図、信念など)を推測し、推論する能力である。
LLMにおけるToM評価への関心が高まりつつあるにもかかわらず、現在のベンチマークは主にサリー・アンテストに触発された合成物語に依存しており、身体的知覚を強調し、現実的な会話環境における精神状態推論の複雑さを捉えるのに失敗している。
さらに、既存のベンチマークは人間のToMの重要な構成要素である行動予測、推論された精神状態を使用して戦略的意思決定をガイドし、将来の対話に適切な会話行動を選択する能力などを見落としていることが多い。
LLMに基づくToM評価と人間的な社会的推論との整合性を改善するために,レコメンデーション対話におけるToM能力評価のための新しいベンチマークであるRecToMを提案する。
RecToMは認知推論と行動予測という2つの相補的な側面に焦点を当てている。
前者は、根底にある精神状態の推測によって、何がコミュニケーションされたかを理解することに重点を置いている。
後者は次に何をすべきかを強調し、LLMがこれらの推論された精神状態を利用して適切な対話戦略を予測、選択、評価できるかどうかを評価する。
最先端のLCMに関する大規模な実験は、RecToMが大きな課題となることを示した。
モデルは精神状態を認識する上で部分的な能力を示すが、動的レコメンデーションダイアログ全体、特に進化する意図の追跡と、推論された精神状態との会話戦略の整合において、一貫性のある戦略的ToM推論を維持するのに苦労している。
関連論文リスト
- A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。
IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。
HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:07:30Z) - Infusing Theory of Mind into Socially Intelligent LLM Agents [31.88529787413754]
心の理論 (ToM) は人間の社会知性の重要な側面である。
ToMを明示的に用いたソーシャルエージェントは対話性が向上し、より効果的に目標を達成できることを示す。
ToMA(Tomagent)は,ToMに着目した対話エージェントである。
論文 参考訳(メタデータ) (2025-09-26T20:07:34Z) - Discerning minds or generic tutors? Evaluating instructional guidance capabilities in Socratic LLMs [35.33577525791391]
本研究は,質問生成を超えて指導指導能力を強調する。
実際の教育対話を基盤としたベンチマークである GuideEval を提案する。
本稿では,行動促進型指導対話を活用した行動誘導型微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-08-08T01:02:44Z) - Theory of Mind in Large Language Models: Assessment and Enhancement [26.35781229730513]
心の理論 (ToM) - 自己や他人の精神状態について考える能力は、人間の社会的知性の基礎である。
大きな言語モデル(LLM)が日々の生活にますます統合されるにつれて、人間の精神状態の解釈と応答能力を理解することは、効果的な相互作用の実現に不可欠である。
論文 参考訳(メタデータ) (2025-04-26T10:17:48Z) - PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues [27.231701486961917]
本稿では,大規模言語モデルのマインド能力理論を評価するためのベンチマークであるPersuasiveToMを提案する。
フレームワークには、ToM ReasoningとToM Applicationという2つのコアタスクが含まれています。
PersuasiveToMの目的は、複雑な心理的活動に焦点を当てたLSMのToM推論能力を効果的に評価することである。
論文 参考訳(メタデータ) (2025-02-28T13:04:04Z) - Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。
ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。
以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T00:32:38Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding [55.38254464415964]
現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。
我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
論文 参考訳(メタデータ) (2024-04-21T11:51:13Z) - Rational Sensibility: LLM Enhanced Empathetic Response Generation Guided by Self-presentation Theory [8.439724621886779]
LLM(Large Language Models)の開発は、人間中心の人工知能(AGI)に希望の光を与えている。
共感は人間にとって重要な感情的属性として機能し、人間中心のAGIにおいて不定の役割を果たす。
本稿では,社会学における自己表現理論にインスパイアされた革新的なエンコーダモジュールを設計する。
論文 参考訳(メタデータ) (2023-12-14T07:38:12Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。