Fugu-MT 論文翻訳(概要): Velocitune: A Velocity-based Dynamic Domain Reweighting Method for Continual Pre-training

論文の概要: Velocitune: A Velocity-based Dynamic Domain Reweighting Method for Continual Pre-training

arxiv url: http://arxiv.org/abs/2411.14318v1
Date: Thu, 21 Nov 2024 17:10:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.887038
Title: Velocitune: A Velocity-based Dynamic Domain Reweighting Method for Continual Pre-training
Title（参考訳）: Velocitune: 継続的な事前トレーニングのための速度に基づく動的ドメイン再重み付け手法
Authors: Zheheng Luo, Xin Zhang, Xiao Liu, Haoling Li, Yeyun Gong, Chen Qi, Peng Cheng,
Abstract要約: Velocituneは学習速度を動的に評価し、それに応じてデータ比率を調整する。スケーリング法によってガイドされ、関連するコストを少なくして、各ドメインの望ましい学習目標を示す。数学およびコード推論タスクとコマンドライン生成ベンチマークの両方のパフォーマンス向上を実現している。
参考スコア（独自算出の注目度）: 28.6412593289647
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: It is well-known that a diverse corpus is critical for training large language models, which are typically constructed from a mixture of various domains. In general, previous efforts resort to sampling training data from different domains with static proportions, as well as adjusting data proportions during training. However, few methods have addressed the complexities of domain-adaptive continual pre-training. To fill this gap, we propose Velocitune, a novel framework dynamically assesses learning velocity and adjusts data proportions accordingly, favoring slower-learning domains while shunning faster-learning ones, which is guided by a scaling law to indicate the desired learning goal for each domain with less associated cost. To evaluate the effectiveness of Velocitune, we conduct experiments in a reasoning-focused dataset with CodeLlama, as well as in a corpus specialised for system command generation with Llama3 and Mistral. Velocitune achieves performance gains in both math and code reasoning tasks and command-line generation benchmarks. Further analysis reveals that key factors driving Velocitune's effectiveness include target loss prediction and data ordering.
Abstract（参考訳）: 多様なコーパスが、様々なドメインの混合から構築される大規模言語モデルの訓練に重要であることはよく知られている。一般に、以前の取り組みでは、静的な比率で異なるドメインからトレーニングデータをサンプリングし、トレーニング中にデータ比率を調整していた。しかし、ドメイン適応型連続事前学習の複雑さに対処する手法はほとんどない。このギャップを埋めるために,学習速度を動的に評価し,それに応じてデータ比率を調整する新しいフレームワークであるVelocituneを提案する。 Velocituneの有効性を評価するために,CodeLlamaを用いた推論型データセットと,Llama3とMistralを用いたシステムコマンド生成に特化したコーパスを用いて実験を行った。 Velocituneは、数学とコード推論タスクとコマンドライン生成ベンチマークの両方のパフォーマンス向上を実現している。さらなる分析によると、Velocituneの有効性を駆動する重要な要因は、目標損失予測とデータの順序付けである。

関連論文リスト

Learning from Complexity: Exploring Dynamic Sample Pruning of Spatio-Temporal Training [36.98769959300113]
大規模な、しばしば冗長なデータセットでディープラーニングモデルをトレーニングすることは、重大な計算ボトルネックを示す。本稿では,動的試料刈り込みによる複雑性から学習する新しい訓練手法について検討する。また,ST-Pruneは,モデル性能の維持や改善を図りながら,トレーニング速度を著しく向上させることを示した。
論文参考訳（メタデータ） (2026-02-22T10:11:04Z)
AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文参考訳（メタデータ） (2025-06-16T09:14:01Z)
DIDS: Domain Impact-aware Data Sampling for Large Language Model Training [61.10643823069603]
大規模言語モデルに対するドメインインパクト対応データサンプリング(DIDS)を提案する。学習効果に基づくDIDSグループトレーニングデータでは、プロキシ言語モデルと次元削減が使用される。同等のトレーニング効率を維持しながら平均パフォーマンスを3.4%向上させる。
論文参考訳（メタデータ） (2025-04-17T13:09:38Z)
ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-04-01T12:06:42Z)
Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文参考訳（メタデータ） (2025-01-26T15:12:06Z)
SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文参考訳（メタデータ） (2024-11-20T10:23:21Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。実験結果から,本手法は既存手法よりも一貫した改善が得られた。我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文参考訳（メタデータ） (2023-11-27T06:19:50Z)
Estimating Post-Synaptic Effects for Online Training of Feed-Forward SNNs [0.27016900604393124]
スパイクニューラルネットワーク(SNN)におけるオンライン学習の実現は、イベントベースのモデルを開発する上で重要なステップである。本稿では, フィードフォワードSNNのトレーニングのためのOTPE(Online Training with Postsynaptic Estimates)を提案する。本研究では, 時間的効果の新たな近似法を用いて, マルチ層ネットワークのスケーリング改善を示す。
論文参考訳（メタデータ） (2023-11-07T16:53:39Z)
FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文参考訳（メタデータ） (2023-09-18T12:35:05Z)
Benchmarking Neural Network Training Algorithms [46.39165332979669]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文参考訳（メタデータ） (2023-06-12T15:21:02Z)
Unified Instance and Knowledge Alignment Pretraining for Aspect-based Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文参考訳（メタデータ） (2021-10-26T04:03:45Z)
Training With Data Dependent Dynamic Learning Rates [8.833548357664608]
本稿では,インスタンス間の損失関数特性の違いを考慮に入れた最適化フレームワークを提案する。我々のフレームワークはデータセットに存在する各インスタンスの動的学習率を学習する。我々のフレームワークは、機械学習モデルのパーソナライズに、既知のターゲットデータ分布に対して使用できることを示す。
論文参考訳（メタデータ） (2021-05-27T21:52:29Z)
Straggler-Resilient Federated Learning: Leveraging the Interplay Between Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文参考訳（メタデータ） (2020-12-28T19:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。