論文の概要: LLMs and their Limited Theory of Mind: Evaluating Mental State Annotations in Situated Dialogue
- arxiv url: http://arxiv.org/abs/2509.02292v1
- Date: Tue, 02 Sep 2025 13:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.037181
- Title: LLMs and their Limited Theory of Mind: Evaluating Mental State Annotations in Situated Dialogue
- Title(参考訳): LLMとその限定的心の理論--推定対話における精神状態アノテーションの評価
- Authors: Katharine Kowalyshyn, Matthias Scheutz,
- Abstract要約: 大規模言語モデル(LLMs)は、チームの共有精神モデル(SMMs)を追跡し、個人の精神状態を自動的に識別する。
本稿では,大規模言語モデル(LLM)をチーム対話の人間スタイルアノテータとして活用し,チームの共有メンタルモデル(SMM)の追跡と,個人のメンタル状態の自動不一致検出を行う新しい2段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.771395176745804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What if large language models could not only infer human mindsets but also expose every blind spot in team dialogue such as discrepancies in the team members' joint understanding? We present a novel, two-step framework that leverages large language models (LLMs) both as human-style annotators of team dialogues to track the team's shared mental models (SMMs) and as automated discrepancy detectors among individuals' mental states. In the first step, an LLM generates annotations by identifying SMM elements within task-oriented dialogues from the Cooperative Remote Search Task (CReST) corpus. Then, a secondary LLM compares these LLM-derived annotations and human annotations against gold-standard labels to detect and characterize divergences. We define an SMM coherence evaluation framework for this use case and apply it to six CReST dialogues, ultimately producing: (1) a dataset of human and LLM annotations; (2) a reproducible evaluation framework for SMM coherence; and (3) an empirical assessment of LLM-based discrepancy detection. Our results reveal that, although LLMs exhibit apparent coherence on straightforward natural-language annotation tasks, they systematically err in scenarios requiring spatial reasoning or disambiguation of prosodic cues.
- Abstract(参考訳): もし大きな言語モデルが人間の考え方を推測するだけでなく、チームメンバの合同理解における不一致など、チームの対話におけるすべての盲点を露呈できたらどうでしょう?
本稿では,大規模言語モデル(LLM)をチーム対話の人間スタイルアノテータとして活用し,チームの共有メンタルモデル(SMM)の追跡と,個人のメンタル状態の自動不一致検出を行う新しい2段階フレームワークを提案する。
最初のステップでは、LLMは、協調リモート検索タスク(CreST)コーパスからタスク指向対話内のSMM要素を識別してアノテーションを生成する。
次に、二次LDMは、これらのLDM由来のアノテーションと、金標準ラベルに対する人間のアノテーションを比較して、発散を検知し、特徴付ける。
このユースケースに対してSMMコヒーレンス評価フレームワークを定義し,最終的に6つのCREST対話に適用し,(1)人間とLLMアノテーションのデータセット,(2)SMMコヒーレンスのための再現可能な評価フレームワーク,(3)LLMに基づく不一致検出の実証的評価を行う。
以上の結果から,LLMは自然な自然言語アノテーションのタスクにおいて明確なコヒーレンスを示すが,空間的推論や韻律的手がかりの曖昧さが要求されるシナリオでは体系的に矛盾することが明らかとなった。
関連論文リスト
- SageLM: A Multi-aspect and Explainable Large Language Model for Speech Judgement [74.51476422119457]
音声音声合成(S2S)大規模言語モデル(LLM)は、人間とコンピュータの自然な相互作用の基礎となる。
包括的S2S LLM評価のためのエンドツーエンド・マルチアスペクト・説明可能な音声LLMである textttSageLM を提案する。
論文 参考訳(メタデータ) (2025-08-28T15:47:37Z) - Reasoning or Not? A Comprehensive Evaluation of Reasoning LLMs for Dialogue Summarization [9.994839971567542]
本報告では, 最先端の推論LDMと非推論LDMの総合的, 体系的評価について述べる。
他の推論集約的なタスクの傾向とは対照的に、明示的な段階的推論は対話の要約品質を常に改善しない。
論文 参考訳(メタデータ) (2025-07-02T21:02:41Z) - What Are They Talking About? A Benchmark of Knowledge-Grounded Discussion Summarization [19.616500850017363]
本稿では、文脈の補足的背景を要約する新しいタスクであるKGDS(Knowledge-Grounded Discussion Summarization)を紹介する。
また、細粒度かつ解釈可能なメトリクスを持つ新しい階層的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-18T15:52:24Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。