論文の概要: Memorization $\neq$ Understanding: Do Large Language Models Have the Ability of Scenario Cognition?
- arxiv url: http://arxiv.org/abs/2509.04866v1
- Date: Fri, 05 Sep 2025 07:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.506097
- Title: Memorization $\neq$ Understanding: Do Large Language Models Have the Ability of Scenario Cognition?
- Title(参考訳): 覚書化$\neq$理解: 大規模言語モデルはシナリオ認知の能力を持っているか?
- Authors: Boxiang Ma, Ru Li, Yuanlong Wang, Hongye Tan, Xiaoli Li,
- Abstract要約: 本稿では,大規模言語モデルのシナリオ認識を評価するための2視点評価フレームワークを提案する。
本稿では,シナリオ要素を付加した,架空の事実の多種多様なテキスト記述を含むシナリオベースデータセットを提案する。
実験の結果,現在のLLMは表層記憶に大きく依存しており,頑健なセマンティックなシナリオ認識を達成できないことがわかった。
- 参考スコア(独自算出の注目度): 10.010113234203208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by vast and diverse textual data, large language models (LLMs) have demonstrated impressive performance across numerous natural language processing (NLP) tasks. Yet, a critical question persists: does their generalization arise from mere memorization of training data or from deep semantic understanding? To investigate this, we propose a bi-perspective evaluation framework to assess LLMs' scenario cognition - the ability to link semantic scenario elements with their arguments in context. Specifically, we introduce a novel scenario-based dataset comprising diverse textual descriptions of fictional facts, annotated with scenario elements. LLMs are evaluated through their capacity to answer scenario-related questions (model output perspective) and via probing their internal representations for encoded scenario elements-argument associations (internal representation perspective). Our experiments reveal that current LLMs predominantly rely on superficial memorization, failing to achieve robust semantic scenario cognition, even in simple cases. These findings expose critical limitations in LLMs' semantic understanding and offer cognitive insights for advancing their capabilities.
- Abstract(参考訳): 膨大な多種多様なテキストデータによって駆動される大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにまたがって印象的なパフォーマンスを示している。
それらの一般化は、トレーニングデータの単なる記憶や深い意味理解から生じるのだろうか?
そこで本研究では,LLMのシナリオ認知を評価するための2視点評価フレームワークを提案する。
具体的には、シナリオ要素を付加した架空の事実の多種多様なテキスト記述を含むシナリオベースデータセットを提案する。
LLMは、シナリオ関連質問(モデル出力視点)に答える能力と、符号化されたシナリオ要素-議論関係(内部表現視点)に対する内部表現を探索することで評価される。
実験の結果,現在のLLMは表層記憶に大きく依存しており,単純な場合であっても頑健なセマンティックシナリオ認識を達成できないことがわかった。
これらの知見は、LLMのセマンティック理解において重要な限界を明らかにし、その能力を向上させるための認知的洞察を提供する。
関連論文リスト
- NeedleChain: Measuring Intact Long-Context Reasoning Capability of Large Language Models [7.134358758293254]
Needle-in-a-Haystackベンチマークは、長期文脈(LC)を理解するLarge Language Models(LLM)能力を評価するために広く利用されている。
GPT-4oのような最先端モデルでさえ、クエリ関連10文のみからなる与えられたコンテキストをそのまま組み込むのに苦労していることを実証する。
我々は新しいベンチマークである textbfNeedleChain を導入し、そのコンテキストはクエリ関連情報から成り立っている。
論文 参考訳(メタデータ) (2025-07-30T06:29:50Z) - Metaphor and Large Language Models: When Surface Features Matter More than Deep Understanding [6.0158981171030685]
本稿では,複数のデータセット,タスク,プロンプト構成にまたがるメタファ解釈において,LLM(Large Language Models)の能力を包括的に評価する。
推論とメタファアノテーションを備えた多種多様な公開データセットを用いて、広範な実験を行うことにより、これらの制限に対処する。
その結果,LLMの性能は比喩的内容よりも語彙的重複や文長などの特徴に影響されていることが示唆された。
論文 参考訳(メタデータ) (2025-07-21T08:09:11Z) - How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs [13.822169295436177]
本研究では,人文研究に用いられた物語において,大規模言語モデル(LLM)が言語的側面の時間的意味をどう扱うかを検討する。
以上の結果から,LLMは原型性に過度に依存し,相反する側面判断を生じ,側面から派生した因果推論に苦慮することが明らかとなった。
これらの結果は,LLMのプロセスの側面が人間と根本的に異なり,ロバストな物語理解が欠如していることを示唆している。
論文 参考訳(メタデータ) (2025-07-18T18:28:35Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - MAGNIFICo: Evaluating the In-Context Learning Ability of Large Language
Models to Generalize to Novel Interpretations [37.13707912132472]
人間は言語表現に新しい解釈を割り当てる素晴らしい能力を持っている。
大きな言語モデル(LLM)は知識の切り離しを持ち、何度も微調整を繰り返すのに費用がかかる。
我々は,LLMが文脈内学習を用いて新しい解釈を習得する能力を体系的に分析する。
論文 参考訳(メタデータ) (2023-10-18T00:02:38Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。