論文の概要: Recycling diverse models for out-of-distribution generalization
- arxiv url: http://arxiv.org/abs/2212.10445v1
- Date: Tue, 20 Dec 2022 17:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:43:08.625334
- Title: Recycling diverse models for out-of-distribution generalization
- Title(参考訳): 流通一般化のための多種多様なリサイクルモデル
- Authors: Alexandre Ram\'e, Kartik Ahuja, Jianyu Zhang, Matthieu Cord, L\'eon
Bottou, David Lopez-Paz
- Abstract要約: 多様な補助的タスクにおいて,同じ基礎モデルの複数の微調整を利用するシンプルな手法であるモデルリサイクルを提案する。
具体的には, モデルリサイクルが, 多様な補助的タスクの恩恵を受けることにより, モデルの多様性を最大化することを示す。
- 参考スコア(独自算出の注目度): 99.6826401545377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are redefining how AI systems are built. Practitioners now
follow a standard procedure to build their machine learning solutions: download
a copy of a foundation model, and fine-tune it using some in-house data about
the target task of interest. Consequently, the Internet is swarmed by a handful
of foundation models fine-tuned on many diverse tasks. Yet, these individual
fine-tunings often lack strong generalization and exist in isolation without
benefiting from each other. In our opinion, this is a missed opportunity, as
these specialized models contain diverse features. Based on this insight, we
propose model recycling, a simple strategy that leverages multiple fine-tunings
of the same foundation model on diverse auxiliary tasks, and repurposes them as
rich and diverse initializations for the target task. Specifically, model
recycling fine-tunes in parallel each specialized model on the target task, and
then averages the weights of all target fine-tunings into a final model.
Empirically, we show that model recycling maximizes model diversity by
benefiting from diverse auxiliary tasks, and achieves a new state of the art on
the reference DomainBed benchmark for out-of-distribution generalization.
Looking forward, model recycling is a contribution to the emerging paradigm of
updatable machine learning where, akin to open-source software development, the
community collaborates to incrementally and reliably update machine learning
models.
- Abstract(参考訳): ファンデーションモデルは、AIシステムの構築方法を再定義している。
ファウンデーションモデルのコピーをダウンロードし、ターゲットとするタスクに関する社内データを使用して微調整する。
その結果、インターネットは、様々なタスクを微調整したいくつかの基礎モデルによって群がっている。
しかし、これら個々の微調整は強い一般化を欠くことが多く、互いに利益を得ずに孤立して存在する。
当社の意見では、これらの特殊なモデルにはさまざまな機能が含まれているため、これは欠落した機会である。
この知見に基づいて,同一基礎モデルの複数の微調整を多種多様な補助的タスクに活用し,対象タスクの多種多様な初期化として再利用する簡易な手法であるモデルリサイクルを提案する。
具体的には、モデルリサイクリング ターゲットタスクのそれぞれの特殊モデルに並行して微調整を行い、その後、すべてのターゲットの微調整の重みを最終モデルに平均する。
実証的に, モデルリサイクルは多様な補助タスクの恩恵を受け, モデルの多様性を最大化することを示し, 分散一般化のためのリファレンス・ドメインベッド・ベンチマークで新たな技術を実現する。
今後、モデルのリサイクルは、オープンソースのソフトウェア開発と同様に、機械学習モデルの段階的かつ確実な更新に協力する、アップダブル機械学習の新たなパラダイムへの貢献となる。
関連論文リスト
- EnsIR: An Ensemble Algorithm for Image Restoration via Gaussian Mixture Models [70.60381055741391]
画像復元の課題は、説明された問題に関連し、単一のモデル予測と地道のずれをもたらす。
アンサンブル学習は、複数のベースモデルの予測を組み合わせることで、これらの偏差に対処することを目的としている。
我々は予測候補のアンサンブル重みを推定するために予測(EM)に基づくアルゴリズムを用いる。
我々のアルゴリズムは、モデルに依存しない訓練不要であり、様々なトレーニング済み画像復元モデルのシームレスな統合と強化を可能にする。
論文 参考訳(メタデータ) (2024-10-30T12:16:35Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent [2.3967405016776384]
Jack of All Trades (JAT) は、シーケンシャルな意思決定タスクに最適化されたユニークな設計のトランスフォーマーベースのモデルである。
JATは、その種の最初のモデルはhttps://huggingface.co/jat-project/jatで完全にオープンソース化されている。
論文 参考訳(メタデータ) (2024-02-15T10:01:55Z) - Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [12.146530928616386]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。
この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。
事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
論文 参考訳(メタデータ) (2023-12-11T19:10:55Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。