論文の概要: Probing Quantifier Comprehension in Large Language Models: Another
Example of Inverse Scaling
- arxiv url: http://arxiv.org/abs/2306.07384v3
- Date: Thu, 30 Nov 2023 01:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:21:29.352682
- Title: Probing Quantifier Comprehension in Large Language Models: Another
Example of Inverse Scaling
- Title(参考訳): 大規模言語モデルにおける量子化器の理解:逆スケーリングのもう一つの例
- Authors: Akshat Gupta
- Abstract要約: 我々は,大言語モデル (LLM) が否定や量化器の理解のための単純な言語テストで失敗することを示す。
我々は,人間の心理言語実験に反する,最多型量化器理解のための逆スケーリングを観察する。
この評価は125M-175Bパラメータのモデルで行われており、LLMは量子化器では期待通りには行わないことを示唆している。
- 参考スコア(独自算出の注目度): 3.4111723103928173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With their increasing size, large language models (LLMs) are becoming
increasingly good at language understanding tasks. But even with high
performance on specific downstream task, LLMs fail at simple linguistic tests
for negation or quantifier understanding. Previous work on quantifier
understanding in LLMs show inverse scaling in understanding few-type
quantifiers. In this paper, we question the claims of of previous work and show
that it is a result of inappropriate testing methodology. We also present
alternate methods to measure quantifier comprehension in LLMs and show that
LLMs are able to better understand the difference between the meaning of
few-type and most-type quantifiers as their size increases, although they are
not particularly good at it. We also observe inverse scaling for most-type
quantifier understanding, which is contrary to human psycho-linguistic
experiments and previous work, where the model's understanding of most-type
quantifier gets worse as the model size increases. We do this evaluation on
models ranging from 125M-175B parameters, which suggests that LLMs do not do as
well as expected with quantifiers. We also discuss the possible reasons for
this and the relevance of quantifier understanding in evaluating language
understanding in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、そのサイズが大きくなるにつれて、言語理解タスクがますます得意になってきています。
しかし、特定の下流タスクで高いパフォーマンスを発揮しても、llmはネゲーションや量子化子理解のための単純な言語テストに失敗する。
LLMにおける量化器の理解に関するこれまでの研究は、少数型量化器の理解における逆スケーリングを示している。
本稿では,先行研究の主張に疑問を呈し,不適切な検査手法の結果であることを示す。
また, LLMにおける量化器の理解度を測る別の手法を提案するとともに, LLMは, LLMの量化器のサイズが大きくなるにつれて, 少数型と最多型の量化器の意味の違いをよりよく理解できることを示した。
また、人間の心理言語実験や過去の研究とは対照的に、モデルのサイズが大きくなるにつれて、モデルが最多型の量化器を理解することは悪化する。
この評価は125M-175Bパラメータのモデルで行われており、LLMは量子化器では期待通りには行わないことを示唆している。
また、LLMにおける言語理解の評価における量化器理解の関連性についても論じる。
関連論文リスト
- Language Models are Symbolic Learners in Arithmetic [8.34588487873447]
大規模言語モデル(LLM)は、言語モデリングと数値計算の間に固有の違いがあるため、算術学習に苦慮していると考えられている。
まず,算術学習において LLM が部分積を利用するかどうかを検討する。
LLMは学習後にいくつかの部分積を識別できるが、算術的なタスクには利用できない。
論文 参考訳(メタデータ) (2024-10-21T01:57:16Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - LLMs' Understanding of Natural Language Revealed [0.0]
大規模言語モデル(LLM)は、大規模言語におけるボトムアップ、データ駆動のリバースエンジニアリングにおける大規模な実験の結果である。
私たちはLLMの言語理解能力、彼らが想定する砦をテストすることに重点を置きます。
論文 参考訳(メタデータ) (2024-07-29T01:21:11Z) - Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - This is not a Dataset: A Large Negation Benchmark to Challenge Large
Language Models [4.017326849033009]
我々は,否定を理解する大規模言語モデルの最適部分性能の理由を明らかにする。
我々は,コモンセンス知識に関する40万前後の記述文を半自動生成する大規模データセットを提案する。
我々は,その一般化と推論能力を把握するために,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築した。
論文 参考訳(メタデータ) (2023-10-24T15:38:21Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。