論文の概要: Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
- arxiv url: http://arxiv.org/abs/2309.14316v2
- Date: Tue, 26 Dec 2023 12:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:55:14.626742
- Title: Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
- Title(参考訳): 言語モデルの物理:その3.1,知識の蓄積と抽出
- Authors: Zeyuan Allen-Zhu and Yuanzhi Li
- Abstract要約: 大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問応答によって抽出できる。
モデルが知識を抽出する能力と,トレーニングデータの多様な多様性尺度との間には,強い相関関係が認められた。
- 参考スコア(独自算出の注目度): 61.05762942335984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can store a vast amount of world knowledge,
often extractable via question-answering (e.g., "What is Abraham Lincoln's
birthday?"). However, do they answer such questions based on exposure to
similar questions during training (i.e., cheating), or by genuinely learning to
extract knowledge from sources like Wikipedia?
In this paper, we investigate this issue using a controlled biography
dataset. We find a strong correlation between the model's ability to extract
knowledge and various diversity measures of the training data.
$\textbf{Essentially}$, for knowledge to be reliably extracted, it must be
sufficiently augmented (e.g., through paraphrasing, sentence shuffling)
$\textit{during pretraining}$. Without such augmentation, knowledge may be
memorized but not extractable, leading to 0% accuracy, regardless of subsequent
instruction fine-tuning.
To understand why this occurs, we employ (nearly) linear probing to
demonstrate a strong connection between the observed correlation and how the
model internally encodes knowledge -- whether it is linearly encoded in the
hidden embeddings of entity names or distributed across other token embeddings
in the training text.
This paper provides $\textbf{several key recommendations for LLM pretraining
in the industry}$: (1) rewrite the pretraining data -- using small, auxiliary
models -- to provide knowledge augmentation, and (2) incorporate more
instruction-finetuning data into the pretraining stage before it becomes too
late.
- Abstract(参考訳): 大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問回答によって抽出できる(例:エイブラハム・リンカーンの誕生日は?
しかし、トレーニング中(すなわち不正行為)に類似した質問への露出に基づいて、あるいはwikipediaのような情報源から知識を抽出するために真に学習することで、そのような質問に答えるだろうか?
本稿では,本課題を自伝データセットを用いて検討する。
モデルの知識抽出能力とトレーニングデータの多様性尺度との間には,強い相関関係がみられた。
$\textbf{essentially}$, 知識が確実に抽出されるためには、十分に拡張されなければならない(例えば、パラフレージング、文のシャッフル)$\textit{during pretraining}$. である。
このような拡張がなければ、知識は記憶されるが抽出できないため、その後の命令の微調整に関わらず、精度は0%になる。
To understand why this occurs, we employ (nearly) linear probing to demonstrate a strong connection between the observed correlation and how the model internally encodes knowledge -- whether it is linearly encoded in the hidden embeddings of entity names or distributed across other token embeddings in the training text. This paper provides $\textbf{several key recommendations for LLM pretraining in the industry}$: (1) rewrite the pretraining data -- using small, auxiliary models -- to provide knowledge augmentation, and (2) incorporate more instruction-finetuning data into the pretraining stage before it becomes too late.
関連論文リスト
- Rephrasing the Web: A Recipe for Compute and Data-Efficient Language
Modeling [27.975832264345772]
本稿では,Web上の文書をパラフレーズ化するために,既製の命令調整モデルを用いたWeb Rephrase Augmented Pre-training(textbfWRAP$)を提案する。
自然にノイズの多いC4データセットでWRAPを使用することで、プリトレーニングを$sim3x$で高速化する。
同じトレーニング済みの計算予算で、Pileのさまざまなサブセットで平均して10%以上のパープレキシティを改善し、13のタスクでゼロショットの質問応答精度を2%以上改善する。
論文 参考訳(メタデータ) (2024-01-29T18:19:08Z) - Blending Reward Functions via Few Expert Demonstrations for Faithful and
Accurate Knowledge-Grounded Dialogue Generation [22.38338205905379]
我々は、新しい報酬関数を導入することで上記の課題を克服するために強化学習アルゴリズムを活用する。
我々の報奨関数は、精度測定値と忠実度測定値を組み合わせて、生成された応答のバランスの取れた品質判定を提供する。
論文 参考訳(メタデータ) (2023-11-02T02:42:41Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - Zero-shot Commonsense Question Answering with Cloze Translation and
Consistency Optimization [20.14487209460865]
自然質問をクローズスタイルの文に翻訳できる4つの翻訳手法について検討する。
提案手法は知識ベース改良モデルと相補的なデータセットであり,それらを組み合わせることで,最先端のゼロショット性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-01T07:12:49Z) - BERTese: Learning to Speak to BERT [50.76152500085082]
本論文では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。
私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。
論文 参考訳(メタデータ) (2021-03-09T10:17:22Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。