論文の概要: The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters
- arxiv url: http://arxiv.org/abs/2501.01705v1
- Date: Fri, 03 Jan 2025 09:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:31.741379
- Title: The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters
- Title(参考訳): 心の理論における文脈理解の意義:ストーリーキャラクタを用いた質問応答の検討
- Authors: Chulun Zhou, Qiujing Wang, Mo Yu, Xiaoqian Yue, Rui Lu, Jiangnan Li, Yifan Zhou, Shunchi Zhang, Jie Zhou, Wai Lam,
- Abstract要約: 理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける長期的個人的背景を理解することの重要性を検証する。
現実的な評価シナリオにおける機械のToM能力の評価を行う。
- 参考スコア(独自算出の注目度): 67.61587661660852
- License:
- Abstract: Theory-of-Mind (ToM) is a fundamental psychological capability that allows humans to understand and interpret the mental states of others. Humans infer others' thoughts by integrating causal cues and indirect clues from broad contextual information, often derived from past interactions. In other words, human ToM heavily relies on the understanding about the backgrounds and life stories of others. Unfortunately, this aspect is largely overlooked in existing benchmarks for evaluating machines' ToM capabilities, due to their usage of short narratives without global backgrounds. In this paper, we verify the importance of understanding long personal backgrounds in ToM and assess the performance of LLMs in such realistic evaluation scenarios. To achieve this, we introduce a novel benchmark, CharToM-QA, comprising 1,035 ToM questions based on characters from classic novels. Our human study reveals a significant disparity in performance: the same group of educated participants performs dramatically better when they have read the novels compared to when they have not. In parallel, our experiments on state-of-the-art LLMs, including the very recent o1 model, show that LLMs still perform notably worse than humans, despite that they have seen these stories during pre-training. This highlights the limitations of current LLMs in capturing the nuanced contextual information required for ToM reasoning.
- Abstract(参考訳): 理論・オブ・ミンド(Theory-of-Mind、ToM)は、人間が他者の精神状態を理解し解釈できる基本的な心理学的能力である。
人間は、しばしば過去の相互作用から派生した広い文脈情報から因果的手がかりと間接的手がかりを統合することで、他人の思考を推測する。
言い換えれば、人間のToMは、他人の背景や人生についての理解に大きく依存している。
残念なことに、この側面はマシンのToM能力を評価するための既存のベンチマークでほとんど見過ごされている。
本稿では,ToMにおける長期的個人的背景を理解することの重要性を検証するとともに,このような現実的な評価シナリオにおけるLLMの性能を評価する。
そこで本研究では,古典小説の文字に基づく1,035 ToM質問を対象とする新しいベンチマークCharToM-QAを提案する。
我々の人間による研究は、教育を受けた参加者の集団が、小説を読んだときと比べて劇的に優れたパフォーマンスを発揮するという、パフォーマンスのかなりの相違を明らかにしている。
同時に、最近のo1モデルを含む最先端のLLMの実験では、これらの物語を事前学習中に見たにもかかわらず、LLMは人間よりも顕著にパフォーマンスが悪いことが示されている。
これは、ToM推論に必要なニュアンス付きコンテキスト情報をキャプチャする際の現在のLLMの制限を強調している。
関連論文リスト
- Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models [52.894048516550065]
ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。
また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:24:31Z) - Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses [11.121931601655174]
心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。
進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
論文 参考訳(メタデータ) (2024-06-09T05:57:59Z) - Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation [15.718288693929019]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成する。
LLMがヒトアノテーターの代用として使用できるかどうかを検討した。
LLMはシステムレベルの評価において,現在の自動測定値よりも優れていますが,十分な説明が得られていないことが分かりました。
論文 参考訳(メタデータ) (2024-05-22T15:56:52Z) - LLM Theory of Mind and Alignment: Opportunities and Risks [0.0]
大きな言語モデル (LLM) が心の理論 (ToM) を持つかどうかに注目が集まっている。
本稿では,LLM ToMが人間:LLMの相互作用に現れる重要な領域を個人およびグループレベルで同定する。
それは、潜在的な意味を幅広い範囲で明らかにし、将来の研究の最も急進的な領域を示唆している。
論文 参考訳(メタデータ) (2024-05-13T19:52:16Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z) - Few-Shot Character Understanding in Movies as an Assessment to
Meta-Learning of Theory-of-Mind [47.13015852330866]
人間は、いくつかの観察によって、新しい架空のキャラクターを素早く理解することができる。
これは、人間のキャラクターの精神状態、すなわち理論・オブ・ミンド(ToM)の推論における、数少ないショットとメタラーニングの本質を反映している。
このギャップを新しいNLPデータセットであるToM-in-AMCで埋め、現実的な物語理解シナリオにおける機械によるToMのメタラーニングを初めて評価する。
論文 参考訳(メタデータ) (2022-11-09T05:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。