論文の概要: How Well Do Large Language Models Understand Syntax? An Evaluation by
Asking Natural Language Questions
- arxiv url: http://arxiv.org/abs/2311.08287v1
- Date: Tue, 14 Nov 2023 16:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:25:17.726840
- Title: How Well Do Large Language Models Understand Syntax? An Evaluation by
Asking Natural Language Questions
- Title(参考訳): 大規模言語モデルによる構文の理解
自然言語質問による評価
- Authors: Houquan Zhou, Yang Hou, Zhenghua Li, Xuebin Wang, Zhefeng Wang, Xinyu
Duan, Min Zhang
- Abstract要約: 本研究は,構文のレンズを通して問題を探究する。
文理解に最も近い9つの構文的知識ポイントを対象とする質問を作成する。
24大言語モデル(LLM)で実施された実験は、ほとんどの場合、構文的知識が限られていることを示唆している。
- 参考スコア(独自算出の注目度): 25.39259677000101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advancements in large language models (LLMs) bring us closer to
achieving artificial general intelligence, the question persists: Do LLMs truly
understand language, or do they merely mimic comprehension through pattern
recognition? This study seeks to explore this question through the lens of
syntax, a crucial component of sentence comprehension. Adopting a natural
language question-answering (Q&A) scheme, we craft questions targeting nine
syntactic knowledge points that are most closely related to sentence
comprehension. Experiments conducted on 24 LLMs suggest that most have a
limited grasp of syntactic knowledge, exhibiting notable discrepancies across
different syntactic knowledge points. In particular, questions involving
prepositional phrase attachment pose the greatest challenge, whereas those
concerning adjectival modifier and indirect object are relatively easier for
LLMs to handle. Furthermore, a case study on the training dynamics of the LLMs
reveals that the majority of syntactic knowledge is learned during the initial
stages of training, hinting that simply increasing the number of training
tokens may not be the `silver bullet' for improving the comprehension ability
of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、人工知能の実現に近づきつつあるが、疑問は続く: LLMは言語を本当に理解しているか、それとも単にパターン認識による理解を模倣するのか?
本研究は,文理解の重要な構成要素である構文レンズを用いて,この問題を探究することを目的とする。
自然言語質問回答(Q&A)方式を採用することで、文理解に最も近い9つの構文的知識ポイントを対象とする質問を作成する。
24 llms で行った実験は、ほとんどが構文知識の把握が限られており、異なる構文知識点間で顕著な相違が見られることを示唆している。
特に、前置詞句のアタッチメントに関する質問は最大の課題であり、形容詞修飾子と間接的対象に関する質問は、LLMが扱うのが比較的容易である。
さらに、llmのトレーニングダイナミクスに関するケーススタディでは、構文知識の大部分はトレーニングの初期段階で学習されており、単にトレーニングトークンの数を増やすだけでは、llmの理解能力を向上させるための「銀弾」ではない可能性があることを示唆している。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Learn to Refuse: Making Large Language Models More Controllable and
Reliable through Knowledge Scope Limitation and Refusal Mechanism [0.0]
大規模言語モデル(LLM)は印象的な言語理解と生成能力を示している。
これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。
本稿では,LLMに対して,誤りを避けるために,難解な質問への回答を拒否するように指示する拒絶機構を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:20:49Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。