論文の概要: The Cost of Down-Scaling Language Models: Fact Recall Deteriorates
before In-Context Learning
- arxiv url: http://arxiv.org/abs/2310.04680v1
- Date: Sat, 7 Oct 2023 03:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 16:36:20.347168
- Title: The Cost of Down-Scaling Language Models: Fact Recall Deteriorates
before In-Context Learning
- Title(参考訳): ダウンスケール言語モデルのコスト:文脈学習前におけるFact Recall Deteriorates
- Authors: Tian Jin, Nolan Clement, Xin Dong, Vaishnavh Nagarajan, Michael
Carbin, Jonathan Ragan-Kelley, Gintare Karolina Dziugaite
- Abstract要約: 重み付けと、より小型または大型のモデルのトレーニングという、2つの自然なスケーリング手法について検討する。
スケーリングによってこの2つの能力がどのように進化するかには、大きな違いがあります。
密度の高いスケーリングとウェイトプルーニングの両方が、この振る舞いを示しているという事実は、スケーリングモデルのサイズが、事実のリコールと文脈内学習に本質的に異なる影響を持っていることを示唆している。
- 参考スコア(独自算出の注目度): 34.76303922401322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does scaling the number of parameters in large language models (LLMs)
affect their core capabilities? We study two natural scaling techniques --
weight pruning and simply training a smaller or larger model, which we refer to
as dense scaling -- and their effects on two core capabilities of LLMs: (a)
recalling facts presented during pre-training and (b) processing information
presented in-context during inference. By curating a suite of tasks that help
disentangle these two capabilities, we find a striking difference in how these
two abilities evolve due to scaling. Reducing the model size by more than 30\%
(via either scaling approach) significantly decreases the ability to recall
facts seen in pre-training. Yet, a 60--70\% reduction largely preserves the
various ways the model can process in-context information, ranging from
retrieving answers from a long context to learning parameterized functions from
in-context exemplars. The fact that both dense scaling and weight pruning
exhibit this behavior suggests that scaling model size has an inherently
disparate effect on fact recall and in-context learning.
- Abstract(参考訳): 大規模言語モデル(LLM)のパラメータのスケーリングは、コア機能にどのように影響しますか?
我々は,2つの自然なスケーリング手法 - 重みの刈り込みと,より小さな,あるいは大きなモデルを単にトレーニングする - と,llmの2つのコア機能への影響について検討した。
(a)予習中に提示された事実を想起すること
(b)推論中にコンテキスト内で提示される情報を処理する。
これら2つの機能を切り離すのに役立つ一連のタスクをキュレートすることで、スケーリングによってこれらの2つの能力がどのように進化するかに大きな違いが見つかります。
モデルサイズを30\%以上削減する(スケーリングアプローチか)と、事前トレーニングで見られる事実をリコールする能力が大幅に低下する。
しかし、60-70\%の削減は、長いコンテキストからの回答の検索から、コンテキスト内の例からパラメータ化された関数の学習まで、モデルがコンテキスト内情報を処理できる様々な方法を大きく維持する。
密度の高いスケーリングとウェイトプルーニングの両方がこの挙動を示すという事実は、スケーリングモデルのサイズが、事実のリコールと文脈内学習に本質的に異なる影響を持っていることを示唆している。
関連論文リスト
- Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。
この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。
本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文 参考訳(メタデータ) (2024-04-02T18:00:28Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Beyond Positive Scaling: How Negation Impacts Scaling Trends of Language
Models [92.11542797811461]
否定を伴う質問からなるデータセットであるNeQAを紹介する。
このタスクは、逆スケーリング、U字型スケーリング、あるいは正のスケーリングを示すことができる。
タスク1は線形スケーリングであり、タスク2は緊急遷移点を持つシグモイド型スケーリングである。
論文 参考訳(メタデータ) (2023-05-27T00:07:17Z) - Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale [5.759319006531332]
マスク付き言語モデリング(MLM)を用いた事前学習の利点を1.25Mパラメータのモデルで示す。
スケール法則を100Mパラメータのモデルに拡張し,ダウンスケーリング効果について検討する。
論文 参考訳(メタデータ) (2023-05-26T21:22:10Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Do Language Embeddings Capture Scales? [54.1633257459927]
事前学習された言語モデルは、オブジェクトのスカラーサイズに関するかなりの量の情報を取得することを示す。
我々は,事前学習と数理化における文脈情報を,その性能に影響を及ぼす2つの重要な要因として認識する。
論文 参考訳(メタデータ) (2020-10-11T21:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。