論文の概要: Reformulation for Pretraining Data Augmentation
- arxiv url: http://arxiv.org/abs/2502.04235v2
- Date: Mon, 19 May 2025 11:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.435412
- Title: Reformulation for Pretraining Data Augmentation
- Title(参考訳): 事前データ強化のための改革
- Authors: Xintong Hao, Ruijie Zhu, Ge Zhang, Ke Shen, Chenggang Li,
- Abstract要約: 本稿では,MGA(Massive Genre-Audience)の改訂手法を提案する。
スケーリングシナリオにおいて、データ繰り返しとアップサンプリングに対して優れたパフォーマンスを示すことによって、その中核的なメリットを実験的に検証する。
我々の研究は、MGAがトレーニングデータセットを大幅に拡張し、繰り返しボトルネックを効果的に軽減し、大規模言語モデルのより効率的なスケーリングを可能にする、信頼性の高い経路を提供することを示している。
- 参考スコア(独自算出の注目度): 6.3722361366939255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive capabilities of large language models across various tasks, their continued scaling is severely hampered not only by data scarcity but also by the performance degradation associated with excessive data repetition during training. To overcome this critical bottleneck, we propose the Massive Genre-Audience(MGA) reformulation method, a lightweight and scalable data augmentation technique inspired by synthetic data methodologies. MGA systematically reformulates existing corpora into diverse, contextually-rich variations to mitigate the negative effects of repetition, and we introduce this approach along with the resulting 770 billion token MGACorpus in this work. We experimentally validate its core benefit by demonstrating superior performance against data repetition and upsampling in scaling scenarios (up to 13B parameters). Furthermore, comprehensive analysis investigates the role of prompt engineering in generation quality and reveals nuances in evaluating model capabilities using standard loss metrics. Our work shows that MGA provides a reliable pathway to substantially augment training datasets, effectively alleviating repetition bottlenecks and enabling more efficient scaling of large language models.
- Abstract(参考訳): さまざまなタスクにわたる大規模言語モデルの印象的な機能にもかかわらず、継続的なスケーリングは、データの不足だけでなく、トレーニング中の過剰なデータ反復に伴うパフォーマンス劣化によっても著しく妨げられている。
この重要なボトルネックを克服するために,合成データ手法に着想を得た軽量でスケーラブルなデータ拡張手法であるMGA (Massive Genre-Audience) 再構成手法を提案する。
MGAは,既存のコーパスを多様かつ文脈に富んだバリエーションに体系的に再構成し,反復によるネガティブな影響を軽減し,結果として生じる7700億のトークンMGACorpusとともにこのアプローチを導入する。
スケーリングシナリオ(最大13Bパラメータ)において、データ繰り返しやアップサンプリングに対して優れたパフォーマンスを示すことで、その中核的なメリットを実験的に検証する。
さらに、総括分析により、生成品質における迅速なエンジニアリングの役割を解明し、標準損失指標を用いたモデル能力の評価におけるニュアンスを明らかにする。
我々の研究は、MGAがトレーニングデータセットを大幅に拡張し、繰り返しボトルネックを効果的に軽減し、大規模言語モデルのより効率的なスケーリングを可能にする、信頼性の高い経路を提供することを示している。
関連論文リスト
- ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。
実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-01T12:06:42Z) - Lean-ing on Quality: How High-Quality Data Beats Diverse Multilingual Data in AutoFormalization [1.204553980682492]
本稿では,言語モデルの数学的能力を高めるために,手書きのプロンプトを用いた逆翻訳を利用する新しい手法を提案する。
提案手法は,広範囲な多言語データセットを用いた微調整性能を上回ることを示す。
まとめると、我々の手法は、形式化に必要なリソースを大幅に削減し、数学のためのAIを加速する、有望な新しいアプローチを示す。
論文 参考訳(メタデータ) (2025-02-18T19:16:54Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
よりシンプルで知識集約的なタスクでは記憶が大きな役割を担い、一方、一般化はより困難で推論に基づくタスクでは鍵となる。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy
for Language Models [35.58379464827462]
本稿では,高密度言語モデルの埋め込み空間と特徴空間を忠実に再現する訓練後プルーニング戦略を提案する。
他の最先端のベースラインと比較して、我々の手法は、SST2、IMDB、AGNewsのデータセット上でBERTによる精度、スパーシリティ、ロバスト性、およびプルーニングコストのバランスが優れていることを示す。
論文 参考訳(メタデータ) (2023-10-19T23:02:29Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文 参考訳(メタデータ) (2022-11-09T15:07:06Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。
本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T11:39:33Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。