論文の概要: Metadata Conditioning Accelerates Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2501.01956v1
- Date: Fri, 03 Jan 2025 18:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:47.554460
- Title: Metadata Conditioning Accelerates Language Model Pre-training
- Title(参考訳): メタデータコンディショニングは言語モデル事前学習を加速する
- Authors: Tianyu Gao, Alexander Wettig, Luxi He, Yihe Dong, Sadhika Malladi, Danqi Chen,
- Abstract要約: 本稿では,Metadata Conditioning then Cooldown (MeCo) と呼ばれる新しい手法を提案する。
MeCoはまず、トレーニング中にテキストと一緒にメタデータを提供し、後に標準テキストのみのフェーズを使用して、メタデータなしでモデルが正常に機能できるようにする。
MeCoは驚くほどシンプルで、計算オーバーヘッドを追加せず、より有能でステアブルな言語モデルを生成するという約束を示す。
- 参考スコア(独自算出の注目度): 76.54265482251454
- License:
- Abstract: The vast diversity of styles, domains, and quality levels present in language model pre-training corpora is essential in developing general model capabilities, but efficiently learning and deploying the correct behaviors exemplified in each of these heterogeneous data sources is challenging. To address this, we propose a new method, termed Metadata Conditioning then Cooldown (MeCo), to incorporate additional learning cues during pre-training. MeCo first provides metadata (e.g., URLs like en.wikipedia.org) alongside the text during training and later uses a cooldown phase with only the standard text, thereby enabling the model to function normally even without metadata. MeCo significantly accelerates pre-training across different model scales (600M to 8B parameters) and training sources (C4, RefinedWeb, and DCLM). For instance, a 1.6B language model trained with MeCo matches the downstream task performance of standard pre-training while using 33% less data. Additionally, MeCo enables us to steer language models by conditioning the inference prompt on either real or fabricated metadata that encodes the desired properties of the output: for example, prepending wikipedia.org to reduce harmful generations or factquizmaster.com (fabricated) to improve common knowledge task performance. We also demonstrate that MeCo is compatible with different types of metadata, such as model-generated topics. MeCo is remarkably simple, adds no computational overhead, and demonstrates promise in producing more capable and steerable language models.
- Abstract(参考訳): 言語モデルの事前学習コーパスに存在するスタイル、ドメイン、品質の多様性は、汎用モデル機能を開発する上で不可欠であるが、これらの不均一なデータソースで実証された正しい振る舞いを効率的に学習し、デプロイすることは困難である。
そこで本研究では,Metadata Conditioning then Cooldown (MeCo) と呼ばれる新しい手法を提案する。
MeCoはまず、トレーニング中にテキストと一緒にメタデータ(例: en.wikipedia.orgのようなURL)を提供し、後に標準テキストのみで冷却フェーズを使用する。
MeCoは、さまざまなモデルスケール(600Mから8Bパラメータ)とトレーニングソース(C4、RefinedWeb、DCLM)の事前トレーニングを大幅に加速する。
例えば、MeCoでトレーニングされた1.6B言語モデルは、33%の少ないデータを使用しながら、標準的な事前トレーニングのダウンストリームタスクのパフォーマンスと一致します。
さらに、MeCoは、出力の望ましい特性をエンコードする実または製造されたメタデータに推論プロンプトを条件付けすることで、言語モデルをステーリングすることを可能にする。例えば、有害な世代を減らすためにwikipedia.orgを準備したり、一般的な知識タスクのパフォーマンスを改善するために factquizmaster.com(ファブリック化)を作成できる。
また、モデル生成トピックなど、MeCoがさまざまなタイプのメタデータと互換性があることを実証する。
MeCoは驚くほどシンプルで、計算オーバーヘッドを追加せず、より有能でステアブルな言語モデルを生成するという約束を示す。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - Efficient Training of Language Models to Fill in the Middle [17.118891860985123]
自動回帰言語モデルは、データセットに直接的な変換を適用した後、テキストを埋めることを学ぶことができる。
FIMモデルのトレーニングには、デフォルト設定の強い設定とベストプラクティスを規定するために、これらのアブリケーションを使用します。
私たちはAPIのベストプラクティスでトレーニングされた最高のインフィルモデルをリリースし、将来の研究を支援するためにインフィルベンチマークをリリースしました。
論文 参考訳(メタデータ) (2022-07-28T17:40:47Z) - BERTIN: Efficient Pre-Training of a Spanish Language Model using
Perplexity Sampling [0.0]
Common Crawlは、この事前学習サブ最適化を実現するのに十分なノイズを含むかもしれない。
約半分のステップで言語モデルの事前学習を可能にする新しいデータ中心手法を提案する。
私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングするための道を開くものです。
論文 参考訳(メタデータ) (2022-07-14T10:48:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。