論文の概要: How Well Do Large Language Models Understand Syntax? An Evaluation by
Asking Natural Language Questions
- arxiv url: http://arxiv.org/abs/2311.08287v1
- Date: Tue, 14 Nov 2023 16:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:25:17.726840
- Title: How Well Do Large Language Models Understand Syntax? An Evaluation by
Asking Natural Language Questions
- Title(参考訳): 大規模言語モデルによる構文の理解
自然言語質問による評価
- Authors: Houquan Zhou, Yang Hou, Zhenghua Li, Xuebin Wang, Zhefeng Wang, Xinyu
Duan, Min Zhang
- Abstract要約: 本研究は,構文のレンズを通して問題を探究する。
文理解に最も近い9つの構文的知識ポイントを対象とする質問を作成する。
24大言語モデル(LLM)で実施された実験は、ほとんどの場合、構文的知識が限られていることを示唆している。
- 参考スコア(独自算出の注目度): 25.39259677000101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advancements in large language models (LLMs) bring us closer to
achieving artificial general intelligence, the question persists: Do LLMs truly
understand language, or do they merely mimic comprehension through pattern
recognition? This study seeks to explore this question through the lens of
syntax, a crucial component of sentence comprehension. Adopting a natural
language question-answering (Q&A) scheme, we craft questions targeting nine
syntactic knowledge points that are most closely related to sentence
comprehension. Experiments conducted on 24 LLMs suggest that most have a
limited grasp of syntactic knowledge, exhibiting notable discrepancies across
different syntactic knowledge points. In particular, questions involving
prepositional phrase attachment pose the greatest challenge, whereas those
concerning adjectival modifier and indirect object are relatively easier for
LLMs to handle. Furthermore, a case study on the training dynamics of the LLMs
reveals that the majority of syntactic knowledge is learned during the initial
stages of training, hinting that simply increasing the number of training
tokens may not be the `silver bullet' for improving the comprehension ability
of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、人工知能の実現に近づきつつあるが、疑問は続く: LLMは言語を本当に理解しているか、それとも単にパターン認識による理解を模倣するのか?
本研究は,文理解の重要な構成要素である構文レンズを用いて,この問題を探究することを目的とする。
自然言語質問回答(Q&A)方式を採用することで、文理解に最も近い9つの構文的知識ポイントを対象とする質問を作成する。
24 llms で行った実験は、ほとんどが構文知識の把握が限られており、異なる構文知識点間で顕著な相違が見られることを示唆している。
特に、前置詞句のアタッチメントに関する質問は最大の課題であり、形容詞修飾子と間接的対象に関する質問は、LLMが扱うのが比較的容易である。
さらに、llmのトレーニングダイナミクスに関するケーススタディでは、構文知識の大部分はトレーニングの初期段階で学習されており、単にトレーニングトークンの数を増やすだけでは、llmの理解能力を向上させるための「銀弾」ではない可能性があることを示唆している。
関連論文リスト
- Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。
我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。
我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文 参考訳(メタデータ) (2024-07-16T08:49:35Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
APAは、明確な質問に答える能力を維持しつつ、あいまいなクエリを明示的に検出し、管理するLLMに権限を与えることを示す。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。