論文の概要: Assessing Language Comprehension in Large Language Models Using Construction Grammar
- arxiv url: http://arxiv.org/abs/2501.04661v1
- Date: Wed, 08 Jan 2025 18:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:54.236419
- Title: Assessing Language Comprehension in Large Language Models Using Construction Grammar
- Title(参考訳): 構築文法を用いた大規模言語モデルにおける言語理解の評価
- Authors: Wesley Scivetti, Melissa Torgbi, Austin Blodgett, Mollie Shichman, Taylor Hudson, Claire Bonial, Harish Tayyar Madabushi,
- Abstract要約: 構築文法(CxG)は、構築(Cxns)として知られる言語要素によって捉えられる意味に関する洞察を提供する。
これらのデータセットは、事前学習データには現れないような例を含むように慎重に構築されているが、人間が理解するのは直感的で容易である。
我々の実験は、LLMが8つのユニークなCxnsを通して伝達する意味についての理解を人間と対比することで、下流の自然言語推論と推論タスクに焦点を当てた。
- 参考スコア(独自算出の注目度): 3.0906699069248806
- License:
- Abstract: Large Language Models, despite their significant capabilities, are known to fail in surprising and unpredictable ways. Evaluating their true `understanding' of language is particularly challenging due to the extensive web-scale data they are trained on. Therefore, we construct an evaluation to systematically assess natural language understanding (NLU) in LLMs by leveraging Construction Grammar (CxG), which provides insights into the meaning captured by linguistic elements known as constructions (Cxns). CxG is well-suited for this purpose because provides a theoretical basis to construct targeted evaluation sets. These datasets are carefully constructed to include examples which are unlikely to appear in pre-training data, yet intuitive and easy for humans to understand, enabling a more targeted and reliable assessment. Our experiments focus on downstream natural language inference and reasoning tasks by comparing LLMs' understanding of the underlying meanings communicated through 8 unique Cxns with that of humans. The results show that while LLMs demonstrate some knowledge of constructional information, even the latest models including GPT-o1 struggle with abstract meanings conveyed by these Cxns, as demonstrated in cases where test sentences are dissimilar to their pre-training data. We argue that such cases provide a more accurate test of true language understanding, highlighting key limitations in LLMs' semantic capabilities. We make our novel dataset and associated experimental data including prompts and model responses publicly available.
- Abstract(参考訳): 大きな言語モデルは、その重要な機能にもかかわらず、驚きと予測不可能な方法で失敗することが知られている。
言語の真の‘理解’を評価することは、彼らが訓練されている大規模なWebスケールデータのために、特に難しい。
そこで我々は,構築文法(CxG)を利用して,LLMにおける自然言語理解(NLU)を体系的に評価する評価を構築する。
CxGは、対象とする評価セットを構成する理論的基礎を提供するため、この目的に適している。
これらのデータセットは、事前訓練されたデータには現れないような例を含むように慎重に構築されているが、人間が理解しやすく、よりターゲットを絞って信頼性の高い評価を可能にする。
我々の実験は、LLMが8つのユニークなCxnsを通して伝達する意味についての理解を人間と対比することで、下流の自然言語推論と推論タスクに焦点を当てた。
その結果,LCMは構築情報の知識をある程度示しているのに対し,GPT-o1を含む最新のモデルでさえ,これらのCxnsが伝達する抽象的な意味に苦慮していることが明らかとなった。
我々は、これらのケースが真の言語理解のより正確なテストを提供し、LLMのセマンティクス能力における重要な制限を強調していると論じる。
我々は新しいデータセットと関連する実験データを公開し、プロンプトとモデル応答を含む実験データを公開する。
関連論文リスト
- Ontology Population using LLMs [0.9894420655516563]
知識グラフ(KG)は、データ統合、表現、可視化にますます活用されている。
LLMはそのようなタスクに有望な機能を提供し、自然言語の理解とコンテンツ生成に優れています。
本研究では、Enslaved.org Hub Ontologyに着目し、KG集団に対するLLMの有効性について検討した。
論文 参考訳(メタデータ) (2024-11-03T15:39:20Z) - From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Do Language Embeddings Capture Scales? [54.1633257459927]
事前学習された言語モデルは、オブジェクトのスカラーサイズに関するかなりの量の情報を取得することを示す。
我々は,事前学習と数理化における文脈情報を,その性能に影響を及ぼす2つの重要な要因として認識する。
論文 参考訳(メタデータ) (2020-10-11T21:11:09Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。