論文の概要: R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training
- arxiv url: http://arxiv.org/abs/2505.00358v1
- Date: Thu, 01 May 2025 07:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.254589
- Title: R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training
- Title(参考訳): R&B: 効率的なファンデーションモデルトレーニングのためのドメイン再編成とデータ混合バランシング
- Authors: Albert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala,
- Abstract要約: セマンティックな類似性に基づいてトレーニングデータを分割し、よりきめ細かいドメインを作成するフレームワークであるR&Bを紹介する。
従来の作業とは異なり、R&Bは損失や勾配などの評価情報を得るために追加の計算を不要にしている。
自然言語から推論,マルチモーダルタスクまで,5つの多様なデータセットに対するR&Bの有効性を示す。
- 参考スコア(独自算出の注目度): 11.213419356901005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data mixing strategies have successfully reduced the costs involved in training language models. While promising, such methods suffer from two flaws. First, they rely on predetermined data domains (e.g., data sources, task types), which may fail to capture critical semantic nuances, leaving performance on the table. Second, these methods scale with the number of domains in a computationally prohibitive way. We address these challenges via R&B, a framework that re-partitions training data based on semantic similarity (Regroup) to create finer-grained domains, and efficiently optimizes the data composition (Balance) by leveraging a Gram matrix induced by domain gradients obtained throughout training. Unlike prior works, it removes the need for additional compute to obtain evaluation information such as losses or gradients. We analyze this technique under standard regularity conditions and provide theoretical insights that justify R&B's effectiveness compared to non-adaptive mixing approaches. Empirically, we demonstrate the effectiveness of R&B on five diverse datasets ranging from natural language to reasoning and multimodal tasks. With as little as 0.01% additional compute overhead, R&B matches or exceeds the performance of state-of-the-art data mixing strategies.
- Abstract(参考訳): データミキシング戦略は、トレーニング言語モデルに関わるコストをうまく削減しました。
有望ながら、そのような方法には2つの欠点がある。
まず、指定されたデータドメイン(例えば、データソース、タスクタイプ)に依存しており、重要なセマンティックなニュアンスをキャプチャできず、テーブルにパフォーマンスを残します。
第二に、これらの手法は計算的に禁止された方法でドメイン数とともにスケールする。
R&Bは、セマンティックな類似性(Regroup)に基づいてトレーニングデータを分割し、よりきめ細かなドメインを生成し、トレーニングを通じて得られるドメイン勾配によって誘導されるグラム行列を利用して、データ構成(Balance)を効率的に最適化するフレームワークである。
従来の作業とは異なり、損失や勾配などの評価情報を得るために追加の計算を不要にする。
本手法を標準正則条件下で解析し,非適応混合法と比較してR&Bの有効性を正当化する理論的知見を提供する。
実験により,自然言語から推論,マルチモーダルタスクまで,5つの多様なデータセットに対するR&Bの有効性を実証した。
最大0.01%の計算オーバーヘッドで、R&Bは最先端のデータミキシング戦略のパフォーマンスにマッチするか、上回っている。
関連論文リスト
- DIDS: Domain Impact-aware Data Sampling for Large Language Model Training [41.86545248261005]
ドメインレベルのサンプリング戦略を最適化するために、ドメインインパクト対応データサンプリング(DIDS)を提案する。
DIDSは、同等のトレーニング効率を維持しながら平均パフォーマンスを3.4%向上させる。
論文 参考訳(メタデータ) (2025-04-17T13:09:38Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Efficient Ensembles Improve Training Data Attribution [12.180392191924758]
トレーニングデータ帰属法は、データ中心AIにおける幅広い応用により、個々のデータポイントがモデル予測に与える影響を定量化することを目的としている。
この分野の既存の手法は、リトレーニングベースとグラデーションベースに分類されるが、有害なトレードオフ帰属効果に苦慮している。
近年の研究では、複数の独立に訓練されたモデルのアンサンブルによる勾配に基づく手法の強化が、より優れた帰属を達成できることが示されている。
論文 参考訳(メタデータ) (2024-05-27T15:58:34Z) - BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - UDALM: Unsupervised Domain Adaptation through Language Modeling [79.73916345178415]
複合分類とマスキング言語モデル損失を用いた微調整手順であるUDALMについて紹介します。
本実験では, 混合損失スケールと利用可能な目標データの量で訓練されたモデルの性能を, 停止基準として有効に用いることを示した。
この方法は、amazon reviewsセンチメントデータセットの12のドメインペアで評価され、9.1.74%の精度が得られ、最先端よりも1.11%の絶対的な改善が得られます。
論文 参考訳(メタデータ) (2021-04-14T19:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。