論文の概要: Pythia: A Suite for Analyzing Large Language Models Across Training and
Scaling
- arxiv url: http://arxiv.org/abs/2304.01373v1
- Date: Mon, 3 Apr 2023 20:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 16:17:32.653210
- Title: Pythia: A Suite for Analyzing Large Language Models Across Training and
Scaling
- Title(参考訳): Pythia: トレーニングとスケーリングを対象とする大規模言語モデル分析スイート
- Authors: Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley,
Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN
Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der
Wal
- Abstract要約: textitPythiaは16の大規模言語モデル(LLM)からなるスイートで、すべて同じ順序で表示される公開データに基づいてトレーニングされている。
トレーニングデータローダをダウンロードして再構築するツールとともに,16モデル毎に154のチェックポイントを公開しています。
- 参考スコア(独自算出の注目度): 19.15117097580111
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: How do large language models (LLMs) develop and evolve over the course of
training? How do these patterns change as models scale? To answer these
questions, we introduce \textit{Pythia}, a suite of 16 LLMs all trained on
public data seen in the exact same order and ranging in size from 70M to 12B
parameters. We provide public access to 154 checkpoints for each one of the 16
models, alongside tools to download and reconstruct their exact training
dataloaders for further study. We intend \textit{Pythia} to facilitate research
in many areas, and we present several case studies including novel results in
memorization, term frequency effects on few-shot performance, and reducing
gender bias. We demonstrate that this highly controlled setup can be used to
yield novel insights toward LLMs and their training dynamics. Trained models,
analysis code, training code, and training data can be found at
https://github.com/EleutherAI/pythia.
- Abstract(参考訳): 大規模言語モデル(llm)は、トレーニングの過程でどのように発展し進化するのか?
モデルがスケールするにつれて、これらのパターンはどのように変化するのか?
これらの疑問に答えるために、我々は、同じ順序で、70Mから12Bのパラメータで見られる公開データに基づいてトレーニングされた16のLLMからなるスイートである、textit{Pythia}を紹介した。
16モデルごとに154のチェックポイントをパブリックアクセスし、トレーニングデータローダをダウンロードして再構築し、さらなる研究を行うためのツールを提供します。
我々は,様々な分野の研究を容易にするために,<textit{pythia> を意図しており,記憶の新規な結果,短期の頻度効果,性別バイアスの低減など,いくつかの事例研究を行っている。
この高度に制御されたセットアップは、llmとそのトレーニングダイナミクスに対する新たな洞察を得られることを実証する。
トレーニングされたモデル、分析コード、トレーニングコード、トレーニングデータはhttps://github.com/EleutherAI/pythia.comにある。
関連論文リスト
- Data Engineering for Scaling Language Models to 128K Context [98.41554785106902]
本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。
既存の作業の一般的な実践である書籍のような特定のドメインで、より長いデータを鼻でサンプリングすることで、パフォーマンスが最適以下であることが分かりました。
我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
論文 参考訳(メタデータ) (2024-02-15T18:19:16Z) - MoPe: Model Perturbation-based Privacy Attacks on Language Models [4.4746931463927835]
大規模言語モデル(LLM)は、トレーニングデータに存在する機密情報を意図せずにリークすることができる。
本稿では,事前学習した言語モデルのトレーニングデータに含まれるテキストを高い信頼度で識別する新しい手法であるモデル摂動(MoPe)を提案する。
論文 参考訳(メタデータ) (2023-10-22T17:33:19Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Test-Time Training on Nearest Neighbors for Large Language Models [25.365366617508663]
Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚くべきことに、20以上の言語モデリングタスクにおいて、20人程度の隣人の検索とトレーニングが大幅にパフォーマンスを向上します。
論文 参考訳(メタデータ) (2023-05-29T08:03:28Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Masked Measurement Prediction: Learning to Jointly Predict Quantities
and Units from Textual Context [27.510965119815058]
そこで本研究では,マスク付きテキストに関連付けられたユニットとともに,モデルが数値を再構成することを学ぶ,新しいタスクであるMasked Measurement Prediction (MMP)を導入する。
MMPは、新しい数値的なモデルのトレーニングだけでなく、既存のシステムの数値性の評価にも有用である。
本稿では,GeMM(Generative Masked Measurement)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T04:42:13Z) - Training Dynamics for Text Summarization Models [45.62439188988816]
我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
論文 参考訳(メタデータ) (2021-10-15T21:13:41Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。