論文の概要: ColD Fusion: Collaborative Descent for Distributed Multitask Finetuning
- arxiv url: http://arxiv.org/abs/2212.01378v1
- Date: Fri, 2 Dec 2022 18:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:12:00.233600
- Title: ColD Fusion: Collaborative Descent for Distributed Multitask Finetuning
- Title(参考訳): cold fusion: 分散マルチタスクの微調整のための協調学習
- Authors: Shachar Don-Yehiya, Elad Venezian, Colin Raffel, Noam Slonim, Yoav
Katz, Leshem Choshen
- Abstract要約: ColD Fusionはマルチタスク学習の利点を提供する手法であるが、分散計算を活用し、限られた通信とデータの共有を必要としない。
ColD Fusionは、マルチタスクでトレーニングされたすべてのデータセットに対して、強力なパフォーマンスを実現するモデルを生成することで、マルチタスク事前トレーニングに匹敵するメリットをもたらすことを示す。
具体的には、35の多様なデータセットでトレーニングとテストを行う場合、ColD Fusionベースのモデルはアーキテクチャの変更なしにRoBERTaを平均2.45ポイント上回る。
- 参考スコア(独自算出の注目度): 37.58983351210097
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pretraining has been shown to scale well with compute, data size and data
diversity. Multitask learning trains on a mixture of supervised datasets and
produces improved performance compared to self-supervised pretraining. Until
now, massively multitask learning required simultaneous access to all datasets
in the mixture and heavy compute resources that are only available to
well-resourced teams.
In this paper, we propose ColD Fusion, a method that provides the benefits of
multitask learning but leverages distributed computation and requires limited
communication and no sharing of data. Consequentially, ColD Fusion can create a
synergistic loop, where finetuned models can be recycled to continually improve
the pretrained model they are based on. We show that ColD Fusion yields
comparable benefits to multitask pretraining by producing a model that (a)
attains strong performance on all of the datasets it was multitask trained on
and (b) is a better starting point for finetuning on unseen datasets. We find
ColD Fusion outperforms RoBERTa and even previous multitask models.
Specifically, when training and testing on 35 diverse datasets, ColD
Fusion-based model outperforms RoBERTa by 2.45 points in average without any
changes to the architecture.
- Abstract(参考訳): 事前トレーニングは、計算、データサイズ、データの多様性によく対応している。
教師付きデータセットの混合上でマルチタスク学習がトレーニングされ、自己教師付きプリトレーニングと比較してパフォーマンスが向上する。
これまでは、大規模なマルチタスク学習では、混合中のすべてのデータセットと、十分なリソースしか利用できない重い計算リソースを同時にアクセスする必要がありました。
本稿では,マルチタスク学習のメリットを享受しながら分散計算を活用し,通信の制限とデータの共有を必要としない手法であるcold fusionを提案する。
結果として、ColD Fusionは相乗的ループを作成でき、微調整されたモデルを再利用して、ベースとした事前訓練されたモデルを継続的に改善することができる。
ColD Fusionは、モデルを生成することでマルチタスク事前学習に匹敵する利点をもたらすことを示す。
(a)マルチタスクでトレーニングしたすべてのデータセットに対して、強力なパフォーマンスを実現し、
(b)未発見のデータセットを微調整する出発点として適しています。
ColD FusionはRoBERTaや過去のマルチタスクモデルよりも優れています。
具体的には、35の多様なデータセットでトレーニングとテストを行う場合、ColD Fusionベースのモデルはアーキテクチャの変更なしにRoBERTaを平均2.45ポイント上回る。
関連論文リスト
- Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。
本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:12:34Z) - Multimodal Fusion with Pre-Trained Model Features in Affective Behaviour Analysis In-the-wild [37.32217405723552]
本稿では,表現(Expr)認識とValence-Arousal(VA)推定の課題に対処するためのアプローチを提案する。
我々は,事前学習モデルを用いてAff-Wild2データベースを評価し,モデルの最終層を特徴として抽出する。
抽出した特徴を整合させる前処理や畳み込みに続いて、異なるモデルがモーダル融合に使用される。
論文 参考訳(メタデータ) (2024-03-22T09:00:24Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。