論文の概要: CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.06741v1
- Date: Mon, 28 Oct 2024 15:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 03:50:25.927583
- Title: CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models
- Title(参考訳): CoBa:大規模言語モデルのマルチタスクファインタニングのための収束バランサ
- Authors: Zi Gong, Hang Yu, Cong Liao, Bingchang Liu, Chaoyu Chen, Jianguo Li,
- Abstract要約: マルチタスク学習(MTL)は,大規模言語モデル(LLM)の微調整に有効である
LLM の既存の MTL 戦略は、計算集約的であるか、同時タスク収束の確保に失敗したかのいずれかによって、しばしば不足する。
本稿では,タスク収束バランスを最小限の計算オーバーヘッドで効果的に管理する新しいMTL手法であるCoBaを提案する。
- 参考スコア(独自算出の注目度): 23.50705152648991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task learning (MTL) benefits the fine-tuning of large language models (LLMs) by providing a single model with improved performance and generalization ability across tasks, presenting a resource-efficient alternative to developing separate models for each task. Yet, existing MTL strategies for LLMs often fall short by either being computationally intensive or failing to ensure simultaneous task convergence. This paper presents CoBa, a new MTL approach designed to effectively manage task convergence balance with minimal computational overhead. Utilizing Relative Convergence Scores (RCS), Absolute Convergence Scores (ACS), and a Divergence Factor (DF), CoBa dynamically adjusts task weights during the training process, ensuring that the validation loss of all tasks progress towards convergence at an even pace while mitigating the issue of individual task divergence. The results of our experiments involving three disparate datasets underscore that this approach not only fosters equilibrium in task improvement but enhances the LLMs' performance by up to 13% relative to the second-best baselines. Code is open-sourced at https://github.com/codefuse-ai/MFTCoder.
- Abstract(参考訳): マルチタスク学習(MTL)は、タスク間のパフォーマンスと一般化能力を改善した単一モデルを提供することで、大きな言語モデル(LLM)の微調整の恩恵を受ける。
しかし、LLM の既存の MTL 戦略は、計算集約的であるか、同時タスク収束の確保に失敗したかのいずれかによって、しばしば不足する。
本稿では,タスク収束バランスを最小限の計算オーバーヘッドで効果的に管理する新しいMTL手法であるCoBaを提案する。
相対収束スコア(RCS)、絶対収束スコア(ACS)、分散係数(DF)を用いることで、CoBaはトレーニングプロセス中にタスクの重みを動的に調整し、各タスクの偏りの問題を緩和しつつ、全タスクの検証損失が偶数ペースで収束に向かって進むことを保証する。
3つの異なるデータセットを用いた実験の結果、このアプローチはタスク改善の均衡を促進させるだけでなく、LLMの性能を2番目に高いベースラインに対して最大13%向上させることを示した。
コードはhttps://github.com/codefuse-ai/MFTCoder.comで公開されている。
関連論文リスト
- MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Multi-Task Learning as enabler for General-Purpose AI-native RAN [1.4295558450631414]
本研究では、汎用AIネイティブ無線アクセスネットワーク(RAN)におけるマルチタスク学習(MTL)アプローチの有効性について検討する。
本研究は, (i) セカンダリキャリア予測, (ii) ユーザ位置予測, (iii) 屋内リンク分類, (iv) 視線リンク分類の4つのタスクに焦点を当てた。
モデルアーキテクチャ,損失と勾配のバランス戦略,分散学習トポロジ,データ空間,タスクグループ化など,MLLの多面的設計面を考慮した現実的なシミュレーションによる性能評価を行った。
論文 参考訳(メタデータ) (2024-04-05T21:12:25Z) - InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Multi-Task Learning as a Bargaining Game [63.49888996291245]
マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。
これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルを訓練すると、対応するシングルタスクモデルよりも低いパフォーマンスが得られる。
本稿では,パラメータ更新のジョイント方向で合意に達するためのタスクを交渉する交渉ゲームとして,勾配の組み合わせステップを考察する。
論文 参考訳(メタデータ) (2022-02-02T13:21:53Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。