論文の概要: Tangent Model Composition for Ensembling and Continual Fine-tuning
- arxiv url: http://arxiv.org/abs/2307.08114v2
- Date: Sat, 30 Sep 2023 02:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 17:17:11.482688
- Title: Tangent Model Composition for Ensembling and Continual Fine-tuning
- Title(参考訳): 感性及び連続的微調整のための接モデル組成物
- Authors: Tian Yu Liu and Stefano Soatto
- Abstract要約: タンジェントモデル合成(Tangent Model composition, TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。
TMCの精度は4.2%向上し、非線形微調整モデルの精度は4.2%向上した。
- 参考スコア(独自算出の注目度): 69.92177580782929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tangent Model Composition (TMC) is a method to combine component models
independently fine-tuned around a pre-trained point. Component models are
tangent vectors to the pre-trained model that can be added, scaled, or
subtracted to support incremental learning, ensembling, or unlearning.
Component models are composed at inference time via scalar combination,
reducing the cost of ensembling to that of a single model. TMC improves
accuracy by 4.2% compared to ensembling non-linearly fine-tuned models at a
2.5x to 10x reduction of inference cost, growing linearly with the number of
component models. Each component model can be forgotten at zero cost, with no
residual effect on the resulting inference. When used for continual
fine-tuning, TMC is not constrained by sequential bias and can be executed in
parallel on federated data. TMC outperforms recently published continual
fine-tuning methods almost uniformly on each setting -- task-incremental,
class-incremental, and data-incremental -- on a total of 13 experiments across
3 benchmark datasets, despite not using any replay buffer. TMC is designed for
composing models that are local to a pre-trained embedding, but could be
extended to more general settings. The code is available at:
https://github.com/tianyu139/tangent-model-composition
- Abstract(参考訳): タンジェントモデル合成(Tangent Model composition、TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。
コンポーネントモデルは、インクリメンタルラーニング、エンハンブル、アンラーニングをサポートするために追加、スケール、縮小できる事前訓練されたモデルに接するベクトルである。
コンポーネントモデルはスカラー結合を介して推論時に構成され、単一のモデルとのアンサンブルコストを低減します。
TMCの精度は2.5倍から10倍に向上し、コンポーネントモデルの数を線形に増加させながら、非線形に微調整されたモデルと比べ4.2%向上した。
それぞれのコンポーネントモデルはゼロコストで無視でき、結果として生じる推論に残差は与えない。
連続的な微調整に使用する場合、MCCはシーケンシャルバイアスに制約されず、フェデレートされたデータ上で並列に実行できる。
tmcは、リプレイバッファを使わずに、3つのベンチマークデータセットで合計13の実験で、タスクインクリメンタル、クラスインクリメンタル、データインクリメンタルの各設定で、ほぼ一様に、連続的な微調整メソッドを公開している。
TMCは、事前訓練された埋め込みに局所的なモデルを構築するために設計されたが、より一般的な設定に拡張できる。
コードは以下の通り。 https://github.com/tianyu139/tangent-model-composition
関連論文リスト
- ModelMix: A New Model-Mixup Strategy to Minimize Vicinal Risk across Tasks for Few-scribble based Cardiac Segmentation [32.19827368497988]
そこで本研究では,モデルパラメータをモデルパラメータとして用いたスクリブル教師付きセグメンテーションに対する新しいアプローチを提案する。
ModelMixは、別々のエンコーダから畳み込みパラメータの凸組み合わせを使って仮想モデルを構築する。
次に、教師なしとスクリブル付きの両方の方法で、タスク間のビジナルリスクを最小限に抑えるために、モデルセットを正規化します。
論文 参考訳(メタデータ) (2024-06-19T05:58:11Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。