論文の概要: Probing Quantifier Comprehension in Large Language Models: Another
Example of Inverse Scaling
- arxiv url: http://arxiv.org/abs/2306.07384v3
- Date: Thu, 30 Nov 2023 01:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:21:29.352682
- Title: Probing Quantifier Comprehension in Large Language Models: Another
Example of Inverse Scaling
- Title(参考訳): 大規模言語モデルにおける量子化器の理解:逆スケーリングのもう一つの例
- Authors: Akshat Gupta
- Abstract要約: 我々は,大言語モデル (LLM) が否定や量化器の理解のための単純な言語テストで失敗することを示す。
我々は,人間の心理言語実験に反する,最多型量化器理解のための逆スケーリングを観察する。
この評価は125M-175Bパラメータのモデルで行われており、LLMは量子化器では期待通りには行わないことを示唆している。
- 参考スコア(独自算出の注目度): 3.4111723103928173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With their increasing size, large language models (LLMs) are becoming
increasingly good at language understanding tasks. But even with high
performance on specific downstream task, LLMs fail at simple linguistic tests
for negation or quantifier understanding. Previous work on quantifier
understanding in LLMs show inverse scaling in understanding few-type
quantifiers. In this paper, we question the claims of of previous work and show
that it is a result of inappropriate testing methodology. We also present
alternate methods to measure quantifier comprehension in LLMs and show that
LLMs are able to better understand the difference between the meaning of
few-type and most-type quantifiers as their size increases, although they are
not particularly good at it. We also observe inverse scaling for most-type
quantifier understanding, which is contrary to human psycho-linguistic
experiments and previous work, where the model's understanding of most-type
quantifier gets worse as the model size increases. We do this evaluation on
models ranging from 125M-175B parameters, which suggests that LLMs do not do as
well as expected with quantifiers. We also discuss the possible reasons for
this and the relevance of quantifier understanding in evaluating language
understanding in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、そのサイズが大きくなるにつれて、言語理解タスクがますます得意になってきています。
しかし、特定の下流タスクで高いパフォーマンスを発揮しても、llmはネゲーションや量子化子理解のための単純な言語テストに失敗する。
LLMにおける量化器の理解に関するこれまでの研究は、少数型量化器の理解における逆スケーリングを示している。
本稿では,先行研究の主張に疑問を呈し,不適切な検査手法の結果であることを示す。
また, LLMにおける量化器の理解度を測る別の手法を提案するとともに, LLMは, LLMの量化器のサイズが大きくなるにつれて, 少数型と最多型の量化器の意味の違いをよりよく理解できることを示した。
また、人間の心理言語実験や過去の研究とは対照的に、モデルのサイズが大きくなるにつれて、モデルが最多型の量化器を理解することは悪化する。
この評価は125M-175Bパラメータのモデルで行われており、LLMは量子化器では期待通りには行わないことを示唆している。
また、LLMにおける言語理解の評価における量化器理解の関連性についても論じる。
関連論文リスト
- Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Psychometric Predictive Power of Large Language Models [32.31556074470733]
命令チューニングは、認知モデルの観点から、必ずしも人間のような大きな言語モデルを作るとは限らない。
命令調整 LLM で推定される次の単語確率は、基本 LLM で推定されるものよりも、人間の読み動作をシミュレートする場合には、しばしば悪化する。
論文 参考訳(メタデータ) (2023-11-13T17:19:14Z) - Evaluation of large language models using an Indian language LGBTI+
lexicon [3.2047868962340327]
大規模言語モデル(LLM)は通常、MMLUのようなタスクベースのベンチマークに基づいて評価される。
本稿では,インド語におけるLGBTI+レキシコンを用いたLCMの評価手法を提案する。
論文 参考訳(メタデータ) (2023-10-26T21:32:24Z) - This is not a Dataset: A Large Negation Benchmark to Challenge Large
Language Models [4.017326849033009]
我々は,否定を理解する大規模言語モデルの最適部分性能の理由を明らかにする。
我々は,コモンセンス知識に関する40万前後の記述文を半自動生成する大規模データセットを提案する。
我々は,その一般化と推論能力を把握するために,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築した。
論文 参考訳(メタデータ) (2023-10-24T15:38:21Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。