論文の概要: Pythia: A Suite for Analyzing Large Language Models Across Training and
Scaling
- arxiv url: http://arxiv.org/abs/2304.01373v2
- Date: Wed, 31 May 2023 17:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:40:32.081019
- Title: Pythia: A Suite for Analyzing Large Language Models Across Training and
Scaling
- Title(参考訳): Pythia: トレーニングとスケーリングを対象とする大規模言語モデル分析スイート
- Authors: Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley,
Kyle O'Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN
Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der
Wal
- Abstract要約: textitPythiaは、まったく同じ順序で、70Mから12Bのパラメータで見られる公開データに基づいてトレーニングされた16の大規模言語モデル(LLM)のスイートである。
16モデルのそれぞれに154のチェックポイントが公開されており、さらに詳細なトレーニングデータローダをダウンロードして再構築するツールも提供しています。
- 参考スコア(独自算出の注目度): 19.15117097580111
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: How do large language models (LLMs) develop and evolve over the course of
training? How do these patterns change as models scale? To answer these
questions, we introduce \textit{Pythia}, a suite of 16 LLMs all trained on
public data seen in the exact same order and ranging in size from 70M to 12B
parameters. We provide public access to 154 checkpoints for each one of the 16
models, alongside tools to download and reconstruct their exact training
dataloaders for further study. We intend \textit{Pythia} to facilitate research
in many areas, and we present several case studies including novel results in
memorization, term frequency effects on few-shot performance, and reducing
gender bias. We demonstrate that this highly controlled setup can be used to
yield novel insights toward LLMs and their training dynamics. Trained models,
analysis code, training code, and training data can be found at
\url{https://github.com/EleutherAI/pythia}.
- Abstract(参考訳): 大規模言語モデル(llm)は、トレーニングの過程でどのように発展し進化するのか?
モデルがスケールするにつれて、これらのパターンはどのように変化するのか?
これらの疑問に答えるために、我々は、同じ順序で、70Mから12Bのパラメータで見られる公開データに基づいてトレーニングされた16のLLMからなるスイートである、textit{Pythia}を紹介した。
16モデルごとに154のチェックポイントをパブリックアクセスし、トレーニングデータローダをダウンロードして再構築し、さらなる研究を行うためのツールを提供します。
我々は,様々な分野の研究を容易にするために,<textit{pythia> を意図しており,記憶の新規な結果,短期の頻度効果,性別バイアスの低減など,いくつかの事例研究を行っている。
この高度に制御されたセットアップは、llmとそのトレーニングダイナミクスに対する新たな洞察を得られることを実証する。
トレーニングされたモデル、分析コード、トレーニングコード、トレーニングデータは、 \url{https://github.com/eleutherai/pythia}で見ることができる。
関連論文リスト
- The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [60.52921835351632]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Test-Time Training on Nearest Neighbors for Large Language Models [25.365366617508663]
Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚くべきことに、20以上の言語モデリングタスクにおいて、20人程度の隣人の検索とトレーニングが大幅にパフォーマンスを向上します。
論文 参考訳(メタデータ) (2023-05-29T08:03:28Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Masked Measurement Prediction: Learning to Jointly Predict Quantities
and Units from Textual Context [27.510965119815058]
そこで本研究では,マスク付きテキストに関連付けられたユニットとともに,モデルが数値を再構成することを学ぶ,新しいタスクであるMasked Measurement Prediction (MMP)を導入する。
MMPは、新しい数値的なモデルのトレーニングだけでなく、既存のシステムの数値性の評価にも有用である。
本稿では,GeMM(Generative Masked Measurement)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T04:42:13Z) - Training Dynamics for Text Summarization Models [45.62439188988816]
我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
論文 参考訳(メタデータ) (2021-10-15T21:13:41Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。