論文の概要: Probing Quantifier Comprehension in Large Language Models
- arxiv url: http://arxiv.org/abs/2306.07384v1
- Date: Mon, 12 Jun 2023 19:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:57:35.452043
- Title: Probing Quantifier Comprehension in Large Language Models
- Title(参考訳): 大規模言語モデルにおける量化子理解の探索
- Authors: Akshat Gupta
- Abstract要約: モデルのサイズが大きくなると、ほとんどの型量子化器の理解がより良くなるが、ほとんど型量子化器の理解はますます悪化する。
この評価は125M-175Bパラメータのモデルで行われており、LLMは量子化器では期待通りには行わないことを示唆している。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With their increasing size, Large language models (LLMs) are becoming
increasingly good at language understanding tasks. But even with high
performance on specific downstream task, LLMs fail at simple linguistic tests
for negation or quantifier understanding. Previous work on testing capability
of LLMs on understanding quantifiers suggest that as the size of the models
increase, they get better at understanding most-type quantifiers but get
increasingly worse at understanding few-type quantifiers, thus presenting a
case of an inverse-scaling law. In this paper, we question the claims of
inverse scaling of few-type quantifier understanding in LLMs and show that it
is a result of inappropriate testing methodology. We also present alternate
methods to measure quantifier comprehension in LLMs and show that as the size
of the models increase, these behaviours are different from what is shown in
previous research. LLMs are consistently able to understand the difference
between the meaning of few-type and most-type quantifiers, but when a
quantifier is added to phrase, LLMs do not always take into account the meaning
of the quantifier. We in fact see an inverse scaling law for most-type
quantifiers, which is contrary to human psycho-linguistic experiments and
previous work, where the model's understanding of most-type quantifier gets
worse as the model size increases. We do this evaluation on models ranging from
125M-175B parameters, which suggests that LLMs do not do as well as expected
with quantifiers and statistical co-occurrence of words still takes precedence
over word meaning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、そのサイズが大きくなるにつれて、言語理解タスクがますます得意になってきています。
しかし、特定の下流タスクで高いパフォーマンスを発揮しても、llmはネゲーションや量子化子理解のための単純な言語テストに失敗する。
従来、LLMの検証能力に関する研究は、モデルのサイズが大きくなるにつれて、ほとんどのタイプの量化器を理解するのがより良くなるが、ほとんど型の量化器を理解するのがますます悪くなり、逆スケーリング法則が現れることを示唆していた。
本稿では,LLMにおける少数型量化器理解の逆スケーリングの主張に疑問を呈し,それが不適切な試験手法の結果であることを示す。
また, LLMにおける量化器の理解度を測定するための代替手法を提案し, モデルのサイズが大きくなるにつれて, これらの挙動が従来の研究と異なることを示す。
LLMは、少数型の量化器の意味と最多型の量化器の意味の違いを一貫して理解することができるが、量化器がフレーズに追加されると、LLMは必ずしも量化器の意味を考慮に入れない。
実際、人間の心理言語実験や以前の研究とは反対の、モデルのサイズが大きくなるにつれて、モデルが最多型量子化器を理解することが悪化する、最多型量子化器の逆スケーリング則がある。
この評価は125M-175Bパラメータのモデルにおいて行われており、LLMは量化器では期待通りには機能せず、単語の統計的共起が単語の意味よりも優先されていることを示唆している。
関連論文リスト
- Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Psychometric Predictive Power of Large Language Models [32.31556074470733]
命令チューニングは、認知モデルの観点から、必ずしも人間のような大きな言語モデルを作るとは限らない。
命令調整 LLM で推定される次の単語確率は、基本 LLM で推定されるものよりも、人間の読み動作をシミュレートする場合には、しばしば悪化する。
論文 参考訳(メタデータ) (2023-11-13T17:19:14Z) - Evaluation of large language models using an Indian language LGBTI+
lexicon [3.2047868962340327]
大規模言語モデル(LLM)は通常、MMLUのようなタスクベースのベンチマークに基づいて評価される。
本稿では,インド語におけるLGBTI+レキシコンを用いたLCMの評価手法を提案する。
論文 参考訳(メタデータ) (2023-10-26T21:32:24Z) - This is not a Dataset: A Large Negation Benchmark to Challenge Large
Language Models [4.017326849033009]
我々は,否定を理解する大規模言語モデルの最適部分性能の理由を明らかにする。
我々は,コモンセンス知識に関する40万前後の記述文を半自動生成する大規模データセットを提案する。
我々は,その一般化と推論能力を把握するために,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築した。
論文 参考訳(メタデータ) (2023-10-24T15:38:21Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。