論文の概要: PiKE: Adaptive Data Mixing for Large-Scale Multi-Task Learning Under Low Gradient Conflicts
- arxiv url: http://arxiv.org/abs/2502.06244v2
- Date: Wed, 04 Jun 2025 02:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:48.84515
- Title: PiKE: Adaptive Data Mixing for Large-Scale Multi-Task Learning Under Low Gradient Conflicts
- Title(参考訳): PiKE: 低勾配衝突下での大規模マルチタスク学習のための適応データ混合
- Authors: Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni,
- Abstract要約: 適応型データ混合アルゴリズムのPiKE(Positive gradient interaction-based K-task weights Estimator)を提案する。
PiKEは非衝突勾配相互作用を利用して、各ステップにおける平均損失減少量のほぼ8上界を最小化する。
理論的収束保証を提供し、PiKEが静的および非適応混合ベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 31.595170363625986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern foundation models are trained on diverse datasets to enhance generalization across tasks and domains A central challenge in this process is determining how to effectively mix and sample data from multiple sources This naturally leads to a multitask learning (MTL) perspective While prior work in MTL has emphasized mitigating gradient conflicts we observe that largescale pretraining scenariossuch as multilingual or multidomain trainingoften exhibit little to no gradient conflict Motivated by this observation we propose PiKE (Positive gradient interaction-based K-task weights Estimator) an adaptive data mixing algorithm that dynamically adjusts sampling weights during training PiKE exploits nonconflicting gradient interactions to minimize a neartight upper bound on the average loss decrease at each step while incurring negligible computational overhead We provide theoretical convergence guarantees and show that PiKE outperforms static and nonadaptive mixing baselines Furthermore we extend PiKE to promote balanced learning across tasks Extensive experiments on largescale language model pretraining confirm that PiKE achieves faster convergence and improved downstream performance compared to existing approaches
- Abstract(参考訳): このプロセスの中心的な課題は、複数のソースからのデータを効果的に混合し、サンプリングする方法を決定することである。これは自然にマルチタスク学習(MTL)の視点に導かれる。 MTLにおける先行研究は、勾配の衝突を緩和することを強調している。我々は、マルチリンガルやマルチドメイントレーニングオブテンのような大規模な事前学習シナリオが、勾配の衝突をほとんど示さないことに注目している。 この観察によって動機付けられた適応データ混合アルゴリズムは、トレーニング中のサンプリング重量を動的に調整するPiKE(Positive gradient interaction-based K-task weights Estimator)を提案し、トレーニング中のサンプリング重量を動的に調整する適応データ混合アルゴリズムである。
関連論文リスト
- Tint Your Models Task-wise for Improved Multi-task Model Merging [17.496018757317824]
本稿では,各タスクに1つのタスク固有のレイヤをトレーニング可能な調整として導入するテストタイムアプローチであるModel Tintingを提案する。
提案手法は, 統合係数とタスク固有層を併用することにより, タスク競合を最小限のコストで効果的に軽減する。
本手法は,コンピュータビジョンと自然言語処理の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - Optimizing Dense Visual Predictions Through Multi-Task Coherence and Prioritization [7.776434991976473]
マルチタスク学習(MTL)は、複数のタスクの同時トレーニングを含む。
本稿では,高密度視覚タスクに特化して設計された高度MTLモデルを提案する。
論文 参考訳(メタデータ) (2024-12-04T10:05:47Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Contrastive Multi-Task Dense Prediction [11.227696986100447]
設計における中核的な目的は、異なるタスクに対する包括的な改善を達成するために、クロスタスクインタラクションを効果的にモデル化する方法である。
マルチタスク密接な予測のためのクロスタスク相互作用のモデル化に特徴的コントラスト整合を導入する。
本稿では,各サブタスクの表現学習を効果的に促進するために,一貫性に基づく新しいマルチタスクコントラスト正規化手法を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:54:01Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Leveraging convergence behavior to balance conflicting tasks in
multi-task learning [3.6212652499950138]
マルチタスク学習は、パフォーマンスの一般化を改善するために相関タスクを使用する。
タスクは互いに衝突することが多いため、複数のタスクの勾配をどのように組み合わせるべきかを定義するのは難しい。
バックプロパゲーション中の各タスクの重要度を調整する動的バイアスを生成するために,勾配の時間的挙動を考慮した手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T01:52:34Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z) - Cross-Task Consistency Learning Framework for Multi-Task Learning [9.991706230252708]
2タスクMTL問題に対する新しい学習フレームワークを提案する。
サイクル一貫性損失とコントラスト学習に着想を得た2つの新たな損失項を定義する。
理論的には、どちらの損失もモデルをより効率的に学習する助けとなり、直進予測と整合する点において、クロスタスクの整合性損失がより良いことを証明している。
論文 参考訳(メタデータ) (2021-11-28T11:55:19Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - HydaLearn: Highly Dynamic Task Weighting for Multi-task Learning with
Auxiliary Tasks [4.095907708855597]
マルチタスク学習(MTL)は、1つ以上の関連する補助タスクと表現を共有することでタスクのパフォーマンスを向上させることができる。
通常、MTL-networksは、個別のタスク損失の一定の重み付けによる複合損失関数に基づいて訓練される。
実際には, 一定損失重みは, (i) ミニバッチに基づく最適化において, 最適タスク重みは, ミニバッチのサンプル組成に応じて, 更新から次へと大きく変化する。
メインタスクのゲインを個別のタスク勾配に結びつけるインテリジェントな重み付けアルゴリズムであるHydaLearnを導入して,その情報を伝達する。
論文 参考訳(メタデータ) (2020-08-26T16:04:02Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。