論文の概要: PiKE: Adaptive Data Mixing for Multi-Task Learning Under Low Gradient Conflicts
- arxiv url: http://arxiv.org/abs/2502.06244v1
- Date: Mon, 10 Feb 2025 08:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:35.569127
- Title: PiKE: Adaptive Data Mixing for Multi-Task Learning Under Low Gradient Conflicts
- Title(参考訳): PiKE: 低勾配衝突下でのマルチタスク学習のための適応データ混合
- Authors: Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni,
- Abstract要約: マルチタスク学習における鍵となる課題は、異なるデータソース間の最適なデータミキシングとサンプリング戦略を決定することである。
適応型データ混合アルゴリズムであるPiKEを導入し、トレーニングを通してタスクコントリビューションを動的に調整する。
我々は、PiKEの理論的収束保証を確立し、静的および非適応混合戦略よりも優位性を示す。
- 参考スコア(独自算出の注目度): 31.595170363625986
- License:
- Abstract: Modern machine learning models are trained on diverse datasets and tasks to improve generalization. A key challenge in multitask learning is determining the optimal data mixing and sampling strategy across different data sources. Prior research in this multi-task learning setting has primarily focused on mitigating gradient conflicts between tasks. However, we observe that many real-world multitask learning scenarios-such as multilingual training and multi-domain learning in large foundation models-exhibit predominantly positive task interactions with minimal or no gradient conflict. Building on this insight, we introduce PiKE (Positive gradient interaction-based K-task weights Estimator), an adaptive data mixing algorithm that dynamically adjusts task contributions throughout training. PiKE optimizes task sampling to minimize overall loss, effectively leveraging positive gradient interactions with almost no additional computational overhead. We establish theoretical convergence guarantees for PiKE and demonstrate its superiority over static and non-adaptive mixing strategies. Additionally, we extend PiKE to promote fair learning across tasks, ensuring balanced progress and preventing task underrepresentation. Empirical evaluations on large-scale language model pretraining show that PiKE consistently outperforms existing heuristic and static mixing strategies, leading to faster convergence and improved downstream task performance.
- Abstract(参考訳): 現代の機械学習モデルは、一般化を改善するために、多様なデータセットとタスクに基づいて訓練されている。
マルチタスク学習における鍵となる課題は、異なるデータソース間で最適なデータミキシングとサンプリング戦略を決定することである。
このマルチタスク学習設定の以前の研究は、主にタスク間の勾配の衝突を軽減することに焦点を当てていた。
しかし,大規模な基礎モデルにおける多言語学習やマルチドメイン学習など,現実のマルチタスク学習のシナリオの多くは,最小あるいは無勾配の衝突を伴う正のタスク相互作用を主に表している。
この知見に基づいて、トレーニングを通してタスクコントリビューションを動的に調整する適応データ混合アルゴリズムであるPiKE(Positive gradient interaction-based K-task weights Estimator)を導入する。
PiKEはタスクサンプリングを最適化し、全体的な損失を最小限に抑え、計算オーバーヘッドがほとんどない正の勾配相互作用を効果的に活用する。
我々は、PiKEの理論的収束保証を確立し、静的および非適応混合戦略よりも優位性を示す。
さらに、タスク間の公正な学習を促進し、バランスの取れた進捗を保証し、タスクの過小表現を防ぐために、PiKEを拡張します。
大規模言語モデルの事前訓練に関する実証的な評価は、PiKEが既存のヒューリスティックおよび静的混合戦略を一貫して上回り、より高速な収束と下流タスク性能の改善をもたらすことを示している。
関連論文リスト
- Tint Your Models Task-wise for Improved Multi-task Model Merging [17.496018757317824]
本稿では,各タスクに1つのタスク固有のレイヤをトレーニング可能な調整として導入するテストタイムアプローチであるModel Tintingを提案する。
提案手法は, 統合係数とタスク固有層を併用することにより, タスク競合を最小限のコストで効果的に軽減する。
本手法は,コンピュータビジョンと自然言語処理の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - Optimizing Dense Visual Predictions Through Multi-Task Coherence and Prioritization [7.776434991976473]
マルチタスク学習(MTL)は、複数のタスクの同時トレーニングを含む。
本稿では,高密度視覚タスクに特化して設計された高度MTLモデルを提案する。
論文 参考訳(メタデータ) (2024-12-04T10:05:47Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Contrastive Multi-Task Dense Prediction [11.227696986100447]
設計における中核的な目的は、異なるタスクに対する包括的な改善を達成するために、クロスタスクインタラクションを効果的にモデル化する方法である。
マルチタスク密接な予測のためのクロスタスク相互作用のモデル化に特徴的コントラスト整合を導入する。
本稿では,各サブタスクの表現学習を効果的に促進するために,一貫性に基づく新しいマルチタスクコントラスト正規化手法を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:54:01Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Leveraging convergence behavior to balance conflicting tasks in
multi-task learning [3.6212652499950138]
マルチタスク学習は、パフォーマンスの一般化を改善するために相関タスクを使用する。
タスクは互いに衝突することが多いため、複数のタスクの勾配をどのように組み合わせるべきかを定義するのは難しい。
バックプロパゲーション中の各タスクの重要度を調整する動的バイアスを生成するために,勾配の時間的挙動を考慮した手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T01:52:34Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z) - Cross-Task Consistency Learning Framework for Multi-Task Learning [9.991706230252708]
2タスクMTL問題に対する新しい学習フレームワークを提案する。
サイクル一貫性損失とコントラスト学習に着想を得た2つの新たな損失項を定義する。
理論的には、どちらの損失もモデルをより効率的に学習する助けとなり、直進予測と整合する点において、クロスタスクの整合性損失がより良いことを証明している。
論文 参考訳(メタデータ) (2021-11-28T11:55:19Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。