論文の概要: GRAPE: Optimize Data Mixture for Group Robust Multi-target Adaptive Pretraining
- arxiv url: http://arxiv.org/abs/2505.20380v1
- Date: Mon, 26 May 2025 17:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.218074
- Title: GRAPE: Optimize Data Mixture for Group Robust Multi-target Adaptive Pretraining
- Title(参考訳): GRAPE: Group Robust Multi-target Adaptive Pretrainingのためのデータ混合の最適化
- Authors: Simin Fan, Maria Ios Glarou, Martin Jaggi,
- Abstract要約: 本稿では,新しいマルチソース・マルチターゲットドメイン再重み付けフレームワークであるRobust Group Multi-target Adaptive PrEtraining (GRAPE)を紹介する。
GRAPEは、複数の目標タスクを同時に横断する堅牢なパフォーマンスのために、事前学習データ混合物を校正する。
ClimbLabとSlimPajamaデータセットの実験は、GRAPEが推論性能の点でベースラインメソッドを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 35.31962554915952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of large language models (LLMs) across diverse downstream applications is fundamentally governed by the quality and composition of their pretraining corpora. Existing domain reweighting algorithms primarily optimize data mixtures for a single target task, thereby resulting in models that overfit to specialized objectives while exhibiting substantial performance degradation on other benchmarks. This paper introduces Group Robust Multi-target Adaptive PrEtraining (GRAPE), a novel multi-source-multi-target domain reweighting framework designed to calibrate pretraining data mixtures for robust performance across multiple target tasks simultaneously. GRAPE dynamically adjusts sampling weights across source domains (domain weights) while concurrently modulating task weights that quantify the relative importance of each individual target task. This adaptive process prioritizes tasks based on their learning difficulty throughout training. We formulate this interleaved reweighting mechanism as a minimax optimization problem: The inner maximization adjusts task weights leveraging group distributed-robust-optimization (DRO), where those tasks demonstrating the least improvement under the current data mixture are prioritized with higher weights; The outer minimization then optimizes domain weights to maximize loss reduction on the prioritized tasks. Experiments on ClimbLab and SlimPajama datasets demonstrate that GRAPE consistently outperforms baseline methods in terms of reasoning performance across 6 benchmarks. Furthermore, when applied to multilingual targets, GRAPE effectively identifies optimal training mixtures from mainstream languages, achieving superior language modeling capabilities across 8 low-resource target languages.
- Abstract(参考訳): 様々な下流アプリケーションにわたる大規模言語モデル(LLM)の性能は、その事前学習コーパスの品質と構成に大きく左右される。
既存のドメイン再重み付けアルゴリズムは、主に1つのターゲットタスクのためのデータ混合を最適化する。
本稿では,複数目標タスク間のロバストなパフォーマンスのための事前学習データ混在の校正を目的とした,新しいマルチソースマルチターゲットドメイン再重み付けフレームワークであるグループロバスト多ターゲット適応PrEtraining (GRAPE)を提案する。
GRAPEは、ソースドメイン(ドメインウェイト)にわたるサンプリングウェイトを動的に調整し、同時に個々のタスクの相対的重要性を定量化するタスクウェイトを調整します。
この適応的なプロセスは、トレーニング全体を通して学習の難しさに基づいてタスクを優先順位付けする。
内部最大化は、群分散ロバスト最適化(DRO)を利用したタスクウェイトを調整し、現在のデータ混合条件下での最小改善を示すタスクを高い重み付けで優先順位付けし、外部最小化はドメインウェイトを最適化し、優先順位付けされたタスクの損失低減を最大化する。
ClimbLabとSlimPajamaデータセットの実験は、GRAPEが6つのベンチマークでパフォーマンスを推論するという点で、ベースラインメソッドを一貫して上回っていることを示している。
さらに、多言語ターゲットに適用した場合、GRAPEは主流言語からの最適なトレーニングミックスを効果的に識別し、8つの低リソースターゲット言語で優れた言語モデリング機能を実現する。
関連論文リスト
- ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。
実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-01T12:06:42Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Multi-Objective Optimization for Sparse Deep Multi-Task Learning [0.0]
重み付きチェビシェフスキャラライゼーションを用いたディープニューラルネットワーク(DNN)のトレーニングのための多目的最適化アルゴリズムを提案する。
本研究の目的は,DNNモデルの持続可能性問題,特にDeep Multi-Taskモデルに焦点をあてることである。
論文 参考訳(メタデータ) (2023-08-23T16:42:27Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。