論文の概要: How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2507.14307v1
- Date: Fri, 18 Jul 2025 18:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.831087
- Title: How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs
- Title(参考訳): 物語におけるLLMの時間的意味の理解 : LLMの認知的評価を事例として
- Authors: Karin de Langis, Jong Inn Park, Andreas Schramm, Bin Hu, Khanh Chi Le, Michael Mensink, Ahn Thu Tong, Dongyeop Kang,
- Abstract要約: 本研究では,人文研究に用いられた物語において,大規模言語モデル(LLM)が言語的側面の時間的意味をどう扱うかを検討する。
以上の結果から,LLMは原型性に過度に依存し,相反する側面判断を生じ,側面から派生した因果推論に苦慮することが明らかとなった。
これらの結果は,LLMのプロセスの側面が人間と根本的に異なり,ロバストな物語理解が欠如していることを示唆している。
- 参考スコア(独自算出の注目度): 13.822169295436177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit increasingly sophisticated linguistic capabilities, yet the extent to which these behaviors reflect human-like cognition versus advanced pattern recognition remains an open question. In this study, we investigate how LLMs process the temporal meaning of linguistic aspect in narratives that were previously used in human studies. Using an Expert-in-the-Loop probing pipeline, we conduct a series of targeted experiments to assess whether LLMs construct semantic representations and pragmatic inferences in a human-like manner. Our findings show that LLMs over-rely on prototypicality, produce inconsistent aspectual judgments, and struggle with causal reasoning derived from aspect, raising concerns about their ability to fully comprehend narratives. These results suggest that LLMs process aspect fundamentally differently from humans and lack robust narrative understanding. Beyond these empirical findings, we develop a standardized experimental framework for the reliable assessment of LLMs' cognitive and linguistic capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます洗練された言語能力を示すが、これらの行動が人間のような認識と高度なパターン認識を反映する程度は、未解決の問題である。
本研究では,従来人間の研究で用いられてきた物語において,LLMが言語的側面の時間的意味をどう扱うかを検討する。
本稿では,LLMが意味的表現や実用的推論を人間的な方法で構築するかどうかを評価するための一連の実験を行う。
以上の結果から, LLMは, 原型性に過度に依存し, 相反する側面判断を生み出し, 側面から派生した因果推論に苦慮し, 物語を完全に理解する能力に懸念を抱くことが明らかとなった。
これらの結果は,LLMのプロセスの側面が人間と根本的に異なり,ロバストな物語理解が欠如していることを示唆している。
これらの経験的知見の他に、LLMの認知的・言語的能力の信頼性評価のための標準化された実験フレームワークを開発する。
関連論文リスト
- Using AI to replicate human experimental results: a motion study [0.11838866556981258]
本稿では,言語研究における信頼性の高い解析ツールとして,大規模言語モデル(LLM)の可能性について検討する。
動作動詞の行儀を含む時間表現における感情的意味の出現に焦点を当てる。
論文 参考訳(メタデータ) (2025-07-14T14:47:01Z) - Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-26T20:01:44Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - CBEval: A framework for evaluating and interpreting cognitive biases in LLMs [1.4633779950109127]
大きな言語モデルは、認知過程において顕著なギャップを示す。
人間の生成したデータのリフレクションとして、これらのモデルは認知バイアスを継承する可能性がある。
論文 参考訳(メタデータ) (2024-12-04T05:53:28Z) - Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。
実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Do Large Language Models Mirror Cognitive Language Processing? [43.68923267228057]
大規模言語モデル(LLM)は、テキスト理解と論理的推論において顕著な能力を示した。
脳認知処理信号は、典型的には人間の言語処理を研究するために使用される。
論文 参考訳(メタデータ) (2024-02-28T03:38:20Z) - Is Self-knowledge and Action Consistent or Not: Investigating Large Language Model's Personality [11.660251022962141]
大規模言語モデル(LLM)の人格特性の把握における従来のパーソナリティアンケートの有効性について検討する。
本研究の目的は, LLM が持つ性格特性と実世界のシナリオにおけるその傾向の一致を評価することである。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。