論文の概要: Assessing Language Comprehension in Large Language Models Using Construction Grammar
- arxiv url: http://arxiv.org/abs/2501.04661v1
- Date: Wed, 08 Jan 2025 18:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 16:10:19.704293
- Title: Assessing Language Comprehension in Large Language Models Using Construction Grammar
- Title(参考訳): 構築文法を用いた大規模言語モデルにおける言語理解の評価
- Authors: Wesley Scivetti, Melissa Torgbi, Austin Blodgett, Mollie Shichman, Taylor Hudson, Claire Bonial, Harish Tayyar Madabushi,
- Abstract要約: 構築文法(CxG)は、構築(Cxns)として知られる言語要素によって捉えられる意味に関する洞察を提供する。
これらのデータセットは、事前学習データには現れないような例を含むように慎重に構築されているが、人間が理解するのは直感的で容易である。
我々の実験は、LLMが8つのユニークなCxnsを通して伝達する意味についての理解を人間と対比することで、下流の自然言語推論と推論タスクに焦点を当てた。
- 参考スコア(独自算出の注目度): 3.0906699069248806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models, despite their significant capabilities, are known to fail in surprising and unpredictable ways. Evaluating their true `understanding' of language is particularly challenging due to the extensive web-scale data they are trained on. Therefore, we construct an evaluation to systematically assess natural language understanding (NLU) in LLMs by leveraging Construction Grammar (CxG), which provides insights into the meaning captured by linguistic elements known as constructions (Cxns). CxG is well-suited for this purpose because provides a theoretical basis to construct targeted evaluation sets. These datasets are carefully constructed to include examples which are unlikely to appear in pre-training data, yet intuitive and easy for humans to understand, enabling a more targeted and reliable assessment. Our experiments focus on downstream natural language inference and reasoning tasks by comparing LLMs' understanding of the underlying meanings communicated through 8 unique Cxns with that of humans. The results show that while LLMs demonstrate some knowledge of constructional information, even the latest models including GPT-o1 struggle with abstract meanings conveyed by these Cxns, as demonstrated in cases where test sentences are dissimilar to their pre-training data. We argue that such cases provide a more accurate test of true language understanding, highlighting key limitations in LLMs' semantic capabilities. We make our novel dataset and associated experimental data including prompts and model responses publicly available.
- Abstract(参考訳): 大きな言語モデルは、その重要な機能にもかかわらず、驚きと予測不可能な方法で失敗することが知られている。
言語の真の‘理解’を評価することは、彼らが訓練されている大規模なWebスケールデータのために、特に難しい。
そこで我々は,構築文法(CxG)を利用して,LLMにおける自然言語理解(NLU)を体系的に評価する評価を構築する。
CxGは、対象とする評価セットを構成する理論的基礎を提供するため、この目的に適している。
これらのデータセットは、事前訓練されたデータには現れないような例を含むように慎重に構築されているが、人間が理解しやすく、よりターゲットを絞って信頼性の高い評価を可能にする。
我々の実験は、LLMが8つのユニークなCxnsを通して伝達する意味についての理解を人間と対比することで、下流の自然言語推論と推論タスクに焦点を当てた。
その結果,LCMは構築情報の知識をある程度示しているのに対し,GPT-o1を含む最新のモデルでさえ,これらのCxnsが伝達する抽象的な意味に苦慮していることが明らかとなった。
我々は、これらのケースが真の言語理解のより正確なテストを提供し、LLMのセマンティクス能力における重要な制限を強調していると論じる。
我々は新しいデータセットと関連する実験データを公開し、プロンプトとモデル応答を含む実験データを公開する。
関連論文リスト
- Deep networks learn to parse uniform-depth context-free languages from local statistics [12.183764229746926]
文だけで言語の構造がどのように学習できるかを理解することは、認知科学と機械学習の両方において中心的な問題である。
我々は,文脈自由文法(PCFG)のクラスを導入し,あいまいさの度合いとスケール間の相関構造を制御できる。
異なるスケールの相関関係が局所的曖昧性を持ち、データの階層的表現の出現を可能にする統一フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-31T17:35:06Z) - Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis [0.5545791216381869]
本稿では, エージェント型大規模言語モデル (LLM) を用いて, 注釈付きコーパスの体系的解析を効率化する方法について検討する。
本稿では,自然言語タスク解釈などの概念を統合したコーパスグラウンド文法解析のためのエージェントフレームワークを提案する。
We test the system on multilingual grammatical tasks by the World Atlas of Language Structures (WALS) (英語)
論文 参考訳(メタデータ) (2025-11-28T21:27:58Z) - TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。
TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。
我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文 参考訳(メタデータ) (2025-08-07T15:11:17Z) - Metaphor and Large Language Models: When Surface Features Matter More than Deep Understanding [6.0158981171030685]
本稿では,複数のデータセット,タスク,プロンプト構成にまたがるメタファ解釈において,LLM(Large Language Models)の能力を包括的に評価する。
推論とメタファアノテーションを備えた多種多様な公開データセットを用いて、広範な実験を行うことにより、これらの制限に対処する。
その結果,LLMの性能は比喩的内容よりも語彙的重複や文長などの特徴に影響されていることが示唆された。
論文 参考訳(メタデータ) (2025-07-21T08:09:11Z) - Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs [8.146860674148044]
我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。
決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。
3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - SLOG: A Structural Generalization Benchmark for Semantic Parsing [68.19511282584304]
合成一般化ベンチマークの目的は、モデルがいかにして新しい複雑な言語表現に一般化するかを評価することである。
既存のベンチマークは、しばしば語彙一般化に焦点を当て、訓練に精通した構文構造における新しい語彙項目の解釈は、しばしば不足している。
SLOGは,COGSを拡張したセマンティック解析データセットである。
論文 参考訳(メタデータ) (2023-10-23T15:39:09Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Structural Supervision Improves Few-Shot Learning and Syntactic
Generalization in Neural Language Models [47.42249565529833]
人間は最小限の経験から単語に関する構造的特性を学ぶことができる。
我々は、現代のニューラル言語モデルがこの行動を英語で再現する能力を評価する。
論文 参考訳(メタデータ) (2020-10-12T14:12:37Z) - Do Language Embeddings Capture Scales? [54.1633257459927]
事前学習された言語モデルは、オブジェクトのスカラーサイズに関するかなりの量の情報を取得することを示す。
我々は,事前学習と数理化における文脈情報を,その性能に影響を及ぼす2つの重要な要因として認識する。
論文 参考訳(メタデータ) (2020-10-11T21:11:09Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - Systematic Generalization on gSCAN with Language Conditioned Embedding [19.39687991647301]
体系的一般化とは、学習アルゴリズムが学習した振る舞いを目に見えない状況に外挿する能力を指す。
本稿では,入力自然言語を条件とした動的メッセージパッシングによるオブジェクトの文脈的埋め込みを学習する手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T17:35:05Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。