論文の概要: MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion
- arxiv url: http://arxiv.org/abs/2502.04235v1
- Date: Thu, 06 Feb 2025 17:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:01.049782
- Title: MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion
- Title(参考訳): MAGA: コーパス拡大防止に向けた大規模ジェンレオーディエンス改革
- Authors: Xintong Hao, Ke Shen, Chenggang Li,
- Abstract要約: 既存のコーパスから多種多様な文脈に富んだ事前学習データを体系的に合成する textbfMAssive textbfAudience (MAGA) 再構成法を提案する。
我々は、様々なデータ予算のスケーリング戦略でMAGACorpusを評価し、様々なモデルサイズで一貫した改善を実証した。
- 参考スコア(独自算出の注目度): 0.4369550829556578
- License:
- Abstract: Despite the remarkable capabilities of large language models across various tasks, their continued scaling faces a critical challenge: the scarcity of high-quality pretraining data. While model architectures continue to evolve, the natural language data struggles to scale up. To tackle this bottleneck, we propose \textbf{MA}ssive \textbf{G}enre-\textbf{A}udience~(MAGA) reformulation method, which systematic synthesizes diverse, contextually-rich pretraining data from existing corpus. This work makes three main contributions: (1) We propose MAGA reformulation method, a lightweight and scalable approach for pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We evaluate MAGACorpus with different data budget scaling strategies, demonstrating consistent improvements across various model sizes (134M-13B), establishing the necessity for next-generation large-scale synthetic pretraining language models. (3) Through comprehensive analysis, we investigate prompt engineering's impact on synthetic training collapse and reveal limitations in conventional collapse detection metrics using validation losses. Our work shows that MAGA can substantially expand training datasets while maintaining quality, offering a reliably pathway for scaling models beyond data limitations.
- Abstract(参考訳): さまざまなタスクにわたる大きな言語モデルの顕著な能力にもかかわらず、その継続的なスケーリングは重要な課題に直面している。
モデルアーキテクチャは進化を続けているが、自然言語データはスケールアップに苦慮している。
このボトルネックに対処するため、既存のコーパスから多種多様な文脈に富んだ事前学習データを体系的に合成する \textbf{MA}sive \textbf{G}enre-\textbf{A}udience~(MAGA) 再構成法を提案する。
本研究は, コーパス拡張前トレーニングのための軽量でスケーラブルなアプローチであるMAGA改質法を提案し, 770Bトークン MAGACorpus を構築した。
2) MAGACorpusを様々なデータ予算スケーリング戦略で評価し, 様々なモデルサイズ (134M-13B) で一貫した改善を示し, 次世代の大規模合成事前学習言語モデルの必要性を確立した。
3) 総合的な分析を通じて, 総合的な学習の崩壊に対する工学的影響を調査し, 検証損失を用いた従来の崩壊検出指標の限界を明らかにする。
私たちの研究は、MAGAがトレーニングデータセットを大幅に拡張し、品質を維持しながら、データ制限を超えてモデルをスケールするための確実な経路を提供することを示している。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Domain Adaptation of Llama3-70B-Instruct through Continual Pre-Training and Model Merging: A Comprehensive Evaluation [31.61985215677114]
SECデータに対するMeta-Llama-3-70B-Instructモデルのドメイン適応に関する広範な実験を行った。
我々の焦点は、継続事前学習(CPT)とモデルのマージであり、モデルのドメイン固有の機能を強化することを目的としていた。
これは、プロセス全体を理解するための徹底的な評価を備えた、プレプリントの技術レポートです。
論文 参考訳(メタデータ) (2024-06-21T08:29:31Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy
for Language Models [35.58379464827462]
本稿では,高密度言語モデルの埋め込み空間と特徴空間を忠実に再現する訓練後プルーニング戦略を提案する。
他の最先端のベースラインと比較して、我々の手法は、SST2、IMDB、AGNewsのデータセット上でBERTによる精度、スパーシリティ、ロバスト性、およびプルーニングコストのバランスが優れていることを示す。
論文 参考訳(メタデータ) (2023-10-19T23:02:29Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文 参考訳(メタデータ) (2022-11-09T15:07:06Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。
本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T11:39:33Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。