論文の概要: Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data
- arxiv url: http://arxiv.org/abs/2407.14985v1
- Date: Sat, 20 Jul 2024 21:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:48:22.006854
- Title: Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data
- Title(参考訳): 一般化対メモ化:事前学習データに言語モデルの能力を引き戻す
- Authors: Antonis Antoniades, Xinyi Wang, Yanai Elazar, Alfonso Amayuelas, Alon Albalak, Kexun Zhang, William Yang Wang,
- Abstract要約: 大規模言語モデルにおける一般化と記憶の相互作用について検討する。
各種のオープンソースLLMとその事前学習コーパスを用いて、モデルのサイズが大きくなるにつれて、タスク関連$n$-gramのペアデータの重要性が増すのを観察する。
その結果,LLMの能力は,十分なタスク関連事前学習データによる記憶と一般化の微妙なバランスから生じるという仮説を支持した。
- 参考スコア(独自算出の注目度): 76.90128359866462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the proven utility of large language models (LLMs) in real-world applications, there remains a lack of understanding regarding how they leverage their large-scale pretraining text corpora to achieve such capabilities. In this work, we investigate the interplay between generalization and memorization in pretrained LLMs at scale, through a comprehensive $n$-gram analysis of their training data. Our experiments focus on three general task types: translation, question-answering, and multiple-choice reasoning. With various sizes of open-source LLMs and their pretraining corpora, we observe that as the model size increases, the task-relevant $n$-gram pair data becomes increasingly important, leading to improved task performance, decreased memorization, stronger generalization, and emergent abilities. Our results support the hypothesis that LLMs' capabilities emerge from a delicate balance of memorization and generalization with sufficient task-related pretraining data, and point the way to larger-scale analyses that could further improve our understanding of these models.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実のアプリケーションで有効であることが証明されているにもかかわらず、そのような機能を実現するために大規模な事前学習テキストコーパスをどのように活用するかについては理解されていない。
本研究では,事前学習したLLMにおける一般化と記憶の相互作用を,学習データの総合的な$n$-gram解析により検討する。
本実験では,3種類のタスクタイプ(翻訳,質問応答,複数選択推論)に着目した。
各種のオープンソースLCMとその事前学習コーパスを用いて、モデルのサイズが大きくなるにつれて、タスク関連$n$-gramのペアデータの重要性が増し、タスク性能が向上し、記憶力の低下、一般化の強化、創発的能力の向上が期待できる。
その結果, LLMの能力は, 十分なタスク関連事前学習データを用いて, 記憶と一般化の微妙なバランスから生まれるという仮説を支持し, それらのモデルの理解を深めることのできる大規模分析への道を示す。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Teaching Arithmetic to Small Transformers [39.72665384986095]
本研究では,小形変圧器が算術演算を効率的に学習する方法について検討する。
まず,従来の学習データが算術学習に最も効果的でないことを示す。
次に、中間ステップの結果を含むチェーン・オブ・シンクスタイルのデータをトレーニングします。
論文 参考訳(メタデータ) (2023-07-07T04:33:31Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。