論文の概要: MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11513v1
- Date: Mon, 17 Feb 2025 07:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:36.303465
- Title: MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models
- Title(参考訳): MaZO:大規模言語モデルのマルチタスクファインチューニングのためのマスケードゼロ階最適化
- Authors: Zhen Zhang, Yifan Yang, Kai Zhen, Nathan Susanj, Athanasios Mouchtaris, Siegfried Kunzmann, Zheng Zhang,
- Abstract要約: 本稿では,ZO最適化下でのマルチタスクLLMファインチューニング用に設計された最初のフレームワークであるMaZOを紹介する。
MaZOは2つの重要な革新を通じてパラメータレベルでこれらの課題に取り組む: 臨界パラメータを識別する重みの重みの指標と、これらのパラメータを選択的に更新するマルチタスクの重みの更新マスクである。
実験により、MaZOは、一階最適化のために設計されたマルチタスク学習手法を超越して、最先端の性能を達成することが示された。
- 参考スコア(独自算出の注目度): 26.980104922985326
- License:
- Abstract: Large language models have demonstrated exceptional capabilities across diverse tasks, but their fine-tuning demands significant memory, posing challenges for resource-constrained environments. Zeroth-order (ZO) optimization provides a memory-efficient alternative by eliminating the need for backpropagation. However, ZO optimization suffers from high gradient variance, and prior research has largely focused on single-task learning, leaving its application to multi-task learning unexplored. Multi-task learning is crucial for leveraging shared knowledge across tasks to improve generalization, yet it introduces unique challenges under ZO settings, such as amplified gradient variance and collinearity. In this paper, we present MaZO, the first framework specifically designed for multi-task LLM fine-tuning under ZO optimization. MaZO tackles these challenges at the parameter level through two key innovations: a weight importance metric to identify critical parameters and a multi-task weight update mask to selectively update these parameters, reducing the dimensionality of the parameter space and mitigating task conflicts. Experiments demonstrate that MaZO achieves state-of-the-art performance, surpassing even multi-task learning methods designed for first-order optimization.
- Abstract(参考訳): 大規模な言語モデルは、様々なタスクにまたがる例外的な能力を示してきたが、その微調整にはかなりのメモリが必要であり、リソースに制約のある環境での課題を提起している。
Zeroth-order (ZO) 最適化は、バックプロパゲーションの必要性を排除し、メモリ効率の代替手段を提供する。
しかし、ZO最適化は勾配のばらつきに悩まされており、従来の研究はシングルタスク学習に重点を置いており、マルチタスク学習への応用は未検討のままである。
マルチタスク学習は、タスク間の共有知識を活用して一般化を改善する上で重要であるが、増幅勾配分散やコリニアリティといったZO設定下での独特な課題を導入している。
本稿では,ZO 最適化の下で,マルチタスク LLM ファインチューニング用に設計された最初のフレームワークである MaZO を提案する。
MaZOは2つの重要な革新を通じてパラメータレベルでこれらの課題に取り組む: 臨界パラメータを識別する重み重要度メトリックと、これらのパラメータを選択的に更新するマルチタスク重み更新マスク。
実験により、MaZOは、一階最適化のために設計されたマルチタスク学習手法を超越して、最先端の性能を達成することが示された。
関連論文リスト
- Beyond Task Vectors: Selective Task Arithmetic Based on Importance Metrics [0.0]
本稿では,タスク固有パラメータ融合によるマルチタスク性能向上を目的としたトレーニングフリーフレームワークであるtextbfunderlineSelective textbfunderlineTask textbfunderlineArithmetic underlinetextbf(STA)を紹介する。
実験により,STAはベンチマーク間で優れたマルチタスク性能を実現し,タスクを忘れる際の優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-25T06:59:16Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Multi-Objective Optimization for Sparse Deep Multi-Task Learning [0.0]
重み付きチェビシェフスキャラライゼーションを用いたディープニューラルネットワーク(DNN)のトレーニングのための多目的最適化アルゴリズムを提案する。
本研究の目的は,DNNモデルの持続可能性問題,特にDeep Multi-Taskモデルに焦点をあてることである。
論文 参考訳(メタデータ) (2023-08-23T16:42:27Z) - Task Aware Feature Extraction Framework for Sequential Dependence
Multi-Task Learning [1.0765359420035392]
我々は厳密な数学的観点から逐次依存型MLLを解析する。
逐次依存型MLLのためのタスク認識特徴抽出(TAFE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-06T13:12:59Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。