Fugu-MT 論文翻訳(概要): DEM: Distribution Edited Model for Training with Mixed Data Distributions

論文の概要: DEM: Distribution Edited Model for Training with Mixed Data Distributions

arxiv url: http://arxiv.org/abs/2406.15570v1
Date: Fri, 21 Jun 2024 18:07:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 21:34:03.399073
Title: DEM: Distribution Edited Model for Training with Mixed Data Distributions
Title（参考訳）: DEM:混合データを用いた学習のための分布編集モデル
Authors: Dhananjay Ram, Aditya Rawal, Momchil Hardalov, Nikolaos Pappas, Sheng Zha,
Abstract要約: 混合データ分散を用いたトレーニングは、マルチタスクと命令追従モデルを作成する上で、一般的かつ重要な部分である。データミキシング手法はこの問題に部分的に対処するが、データソース間の準最適性能を持つ。本稿では,各データソースで個別に訓練されたモデルとベースモデルを組み合わせることで,データソースの最適化を効率化する,シンプルで効率的な代替案を提案する。
参考スコア（独自算出の注目度）: 15.064693005258324
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training with mixed data distributions is a common and important part of creating multi-task and instruction-following models. The diversity of the data distributions and cost of joint training makes the optimization procedure extremely challenging. Data mixing methods partially address this problem, albeit having a sub-optimal performance across data sources and require multiple expensive training runs. In this paper, we propose a simple and efficient alternative for better optimization of the data sources by combining models individually trained on each data source with the base model using basic element-wise vector operations. The resulting model, namely Distribution Edited Model (DEM), is 11x cheaper than standard data mixing and outperforms strong baselines on a variety of benchmarks, yielding up to 6.2% improvement on MMLU, 11.5% on BBH, 16.1% on DROP, and 9.3% on HELM with models of size 3B to 13B. Notably, DEM does not require full re-training when modifying a single data-source, thus making it very flexible and scalable for training with diverse data sources.
Abstract（参考訳）: 混合データ分散を用いたトレーニングは、マルチタスクと命令追従モデルを作成する上で、一般的かつ重要な部分である。データ分布の多様性とジョイントトレーニングのコストは、最適化手順を極めて困難にしている。データミキシング手法はこの問題に部分的に対処するが、データソースにまたがる準最適性能を持ち、複数の高価なトレーニングを実行する必要がある。本稿では,各データソース上で個別に訓練されたモデルと基本要素ベクトル演算を用いたベースモデルを組み合わせることで,データソースの最適化を簡便かつ効率的に行う方法を提案する。結果として得られたモデルであるDistributed Edited Model (DEM) は標準データ混合よりも11倍安く、MMLUでは6.2%、BBHでは11.5%、DROPでは16.1%、HELMでは3Bから13Bのモデルで9.3%向上した。特に、DEMは単一のデータソースを変更する際に完全な再トレーニングを必要としないため、多様なデータソースでトレーニングするために非常に柔軟でスケーラブルである。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
The Best Instruction-Tuning Data are Those That Fit [17.401088816596054]
事前訓練された大言語モデル(LLM)から強機能を引き出すためには,SFT(Supervised Fine-tuning)データが必要である。 GRAPE*は,対象モデルの特異な特徴を考慮に入れた,新しいSFTフレームワークである。各命令に対して、様々なLSMからの応答を収集し、ターゲットモデルによって測定された最も高い確率の命令を選択する。
論文参考訳（メタデータ） (2025-02-06T16:31:21Z)
Scalable Data Ablation Approximations for Language Models through Modular Training and Merging [27.445079398772904]
本稿では,学習コーパスのサブセット上で個々のモデルを訓練するデータ短縮を効果的に近似する方法を提案する。任意の評価セットが与えられた場合、候補データに基づいてトレーニングされた単一モデルのパープレキシティスコアは、そのデータの異なる分割に基づいてトレーニングされたモデルのパラメータ平均のパープレキシティスコアと強く相関していることが分かる。
論文参考訳（メタデータ） (2024-10-21T06:03:49Z)
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文参考訳（メタデータ） (2024-03-25T17:14:00Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
CONTRAST: Continual Multi-source Adaptation to Dynamic Distributions [42.293444710522294]
Continual Multi-source Adaptation to Dynamic Distributions (CONTRAST) は、複数のソースモデルを最適に組み合わせて動的テストデータに適応する新しい手法である。提案手法は,ソースモデルを最適に組み合わせ,モデル更新の優先順位付けを最小限に行うことができることを示す。
論文参考訳（メタデータ） (2024-01-04T22:23:56Z)
Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-05T00:42:35Z)
Training Data Protection with Compositional Diffusion Models [99.46239561159953]
比較拡散モデル(CDM)は、異なるデータソース上で異なる拡散モデル(またはプロンプト)を訓練する手法である。個々のモデルは、独立した、異なるタイミングで、異なる分散とドメインでトレーニングすることができる。各モデルには、トレーニング中に露出したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にする。
論文参考訳（メタデータ） (2023-08-02T23:27:49Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Unsupervised Multi-source Domain Adaptation Without Access to Source Data [58.551861130011886]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。本稿では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-04-05T10:45:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。