論文の概要: ColD Fusion: Collaborative Descent for Distributed Multitask Finetuning
- arxiv url: http://arxiv.org/abs/2212.01378v2
- Date: Wed, 13 Sep 2023 15:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 18:32:12.685327
- Title: ColD Fusion: Collaborative Descent for Distributed Multitask Finetuning
- Title(参考訳): cold fusion: 分散マルチタスクの微調整のための協調学習
- Authors: Shachar Don-Yehiya, Elad Venezian, Colin Raffel, Noam Slonim, Yoav
Katz, Leshem Choshen
- Abstract要約: 我々は、ColD Fusionと呼ばれる事前学習されたモデルを継続的に進化させる新しいパラダイムを提案する。
マルチタスク学習の利点を提供するが、限られた通信で分散計算を活用し、共有データの必要性をなくす。
ColD Fusionは、トレーニングしたすべてのデータセットに対して強力なパフォーマンスを実現するモデルを生成することで、マルチタスクトレーニングに匹敵するメリットを得られることを示す。
- 参考スコア(独自算出の注目度): 49.405380385239276
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a new paradigm to continually evolve pretrained models, denoted
ColD Fusion. It provides the benefits of multitask learning but leverages
distributed computation with limited communication and eliminates the need for
shared data. Consequentially, ColD Fusion can give rise to a synergistic loop,
where finetuned models can be recycled to continually improve the pretrained
model they are based upon. We show that ColD Fusion yields comparable benefits
to multitask training by producing a model that (a) attains strong performance
on all of the datasets it was trained on; and (b) is a better starting point
for finetuning on unseen datasets. We show that ColD Fusion outperforms RoBERTa
and even previous multitask models. Specifically, when training and testing on
35 diverse datasets, ColD Fusion-based model outperforms RoBERTa by 2.33 points
on average without any changes to the architecture.
- Abstract(参考訳): 我々はプレトレーニングモデル(コールドフュージョン)を継続的に発展させる新しいパラダイムを提案する。
マルチタスク学習の利点を提供するが、限られた通信で分散計算を活用し、共有データの必要性をなくす。
寒冷核融合は相乗的ループを生じさせ、そこでは微調整されたモデルをリサイクルして、基礎となる事前訓練されたモデルを継続的に改善することができる。
我々はcold fusionがマルチタスクトレーニングに匹敵する利益をもたらすことを実証する。
(a)トレーニングしたすべてのデータセットに対して高いパフォーマンスを実現し、
(b)未発見のデータセットを微調整する出発点として適しています。
ColD FusionはRoBERTaや過去のマルチタスクモデルよりも優れていることを示す。
具体的には、35の多様なデータセットでトレーニングとテストを行う場合、ColD Fusionベースのモデルはアーキテクチャの変更なしにRoBERTaを平均2.33ポイント上回る。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。
本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:12:34Z) - Multimodal Fusion with Pre-Trained Model Features in Affective Behaviour Analysis In-the-wild [37.32217405723552]
本稿では,表現(Expr)認識とValence-Arousal(VA)推定の課題に対処するためのアプローチを提案する。
我々は,事前学習モデルを用いてAff-Wild2データベースを評価し,モデルの最終層を特徴として抽出する。
抽出した特徴を整合させる前処理や畳み込みに続いて、異なるモデルがモーダル融合に使用される。
論文 参考訳(メタデータ) (2024-03-22T09:00:24Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。