論文の概要: Tangent Model Composition for Ensembling and Continual Fine-tuning
- arxiv url: http://arxiv.org/abs/2307.08114v1
- Date: Sun, 16 Jul 2023 17:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:33:43.460639
- Title: Tangent Model Composition for Ensembling and Continual Fine-tuning
- Title(参考訳): 感性及び連続的微調整のための接モデル組成物
- Authors: Tian Yu Liu and Stefano Soatto
- Abstract要約: タンジェントモデル合成(Tangent Model composition, TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。
TMCは、推論コストの2.5倍から10倍の削減で、非線形微調整モデルの精度を4.2%向上させる。
- 参考スコア(独自算出の注目度): 82.07753773582164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tangent Model Composition (TMC) is a method to combine component models
independently fine-tuned around a pre-trained point. Component models are
tangent vectors to the pre-trained model that can be added, scaled, or
subtracted to support incremental learning, ensembling, or unlearning.
Component models are composed at inference time via scalar combination,
reducing the cost of ensembling to that of a single model. TMC improves
accuracy by 4.2% compared to ensembling non-linearly fine-tuned models at a
2.5x to 10x reduction of inference cost, growing linearly with the number of
component models. Each component model can be forgotten at zero cost, with no
residual effect on the resulting inference. When used for continual
fine-tuning, TMC is not constrained by sequential bias and can be executed in
parallel on federated data. TMC outperforms recently published continual
fine-tuning methods almost uniformly on each setting -- task-incremental,
class-incremental, and data-incremental -- on a total of 13 experiments across
3 benchmark datasets, despite not using any replay buffer. TMC is designed for
composing models that are local to a pre-trained embedding, but could be
extended to more general settings.
- Abstract(参考訳): タンジェントモデル合成(Tangent Model composition、TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。
コンポーネントモデルは、インクリメンタルラーニング、エンハンブル、アンラーニングをサポートするために追加、スケール、縮小できる事前訓練されたモデルに接するベクトルである。
コンポーネントモデルはスカラー結合を介して推論時に構成され、単一のモデルとのアンサンブルコストを低減します。
TMCの精度は2.5倍から10倍に向上し、コンポーネントモデルの数を線形に増加させながら、非線形に微調整されたモデルと比べ4.2%向上した。
それぞれのコンポーネントモデルはゼロコストで無視でき、結果として生じる推論に残差は与えない。
連続的な微調整に使用する場合、MCCはシーケンシャルバイアスに制約されず、フェデレートされたデータ上で並列に実行できる。
tmcは、リプレイバッファを使わずに、3つのベンチマークデータセットで合計13の実験で、タスクインクリメンタル、クラスインクリメンタル、データインクリメンタルの各設定で、ほぼ一様に、連続的な微調整メソッドを公開している。
TMCは、事前訓練された埋め込みに局所的なモデルを構築するために設計されたが、より一般的な設定に拡張できる。
関連論文リスト
- Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Decouple-Then-Merge: Towards Better Training for Diffusion Models [45.89372687373466]
拡散モデルは、ノイズ破損の各ステップを反転させる一連のモデルを学ぶことで訓練される。
この研究はDeouple-then-Merge(DeMe)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-09T08:19:25Z) - ModelMix: A New Model-Mixup Strategy to Minimize Vicinal Risk across Tasks for Few-scribble based Cardiac Segmentation [32.19827368497988]
そこで本研究では,モデルパラメータをモデルパラメータとして用いたスクリブル教師付きセグメンテーションに対する新しいアプローチを提案する。
ModelMixは、別々のエンコーダから畳み込みパラメータの凸組み合わせを使って仮想モデルを構築する。
次に、教師なしとスクリブル付きの両方の方法で、タスク間のビジナルリスクを最小限に抑えるために、モデルセットを正規化します。
論文 参考訳(メタデータ) (2024-06-19T05:58:11Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。