論文の概要: Offsite-Tuning: Transfer Learning without Full Model
- arxiv url: http://arxiv.org/abs/2302.04870v1
- Date: Thu, 9 Feb 2023 18:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:33:28.717979
- Title: Offsite-Tuning: Transfer Learning without Full Model
- Title(参考訳): オフサイトチューニング:フルモデルのないトランスファーラーニング
- Authors: Guangxuan Xiao, Ji Lin, Song Han
- Abstract要約: Offsite-tuningは、プライバシ保護と効率的な転送学習フレームワークである。
オフサイトチューニングは、フルモデルファインチューニングと同等の精度を達成することができる。
- 参考スコア(独自算出の注目度): 21.460079553685713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning is important for foundation models to adapt to downstream
tasks. However, many foundation models are proprietary, so users must share
their data with model owners to fine-tune the models, which is costly and raise
privacy concerns. Moreover, fine-tuning large foundation models is
computation-intensive and impractical for most downstream users. In this paper,
we propose Offsite-Tuning, a privacy-preserving and efficient transfer learning
framework that can adapt billion-parameter foundation models to downstream data
without access to the full model. In offsite-tuning, the model owner sends a
light-weight adapter and a lossy compressed emulator to the data owner, who
then fine-tunes the adapter on the downstream data with the emulator's
assistance. The fine-tuned adapter is then returned to the model owner, who
plugs it into the full model to create an adapted foundation model.
Offsite-tuning preserves both parties' privacy and is computationally more
efficient than the existing fine-tuning methods that require access to the full
model weights. We demonstrate the effectiveness of offsite-tuning on various
large language and vision foundation models. Offsite-tuning can achieve
comparable accuracy as full model fine-tuning while being privacy-preserving
and efficient, achieving 6.5x speedup and 5.6x memory reduction. Code is
available at https://github.com/mit-han-lab/offsite-tuning.
- Abstract(参考訳): 転移学習は、下流のタスクに適応する基礎モデルにとって重要である。
しかし、多くのファンデーションモデルはプロプライエタリなので、ユーザーはモデルを微調整するためにモデル所有者とデータを共有しなければなりません。
さらに、微調整された大規模基盤モデルは、ほとんどの下流ユーザーにとって計算集約的で非現実的です。
本稿では,全モデルにアクセスせずに10億パラメータの基礎モデルから下流データに適応可能な,プライバシの保存と効率的な転送学習フレームワークであるオフサイトチューニングを提案する。
オフサイトチューニングでは、モデルオーナが軽量アダプタと圧縮エミュレータをデータオーナに送信し、エミュレータの助けを借りて下流データ上のアダプタを微調整する。
微調整されたアダプタはモデルオーナに返され、それをフルモデルにプラグインして、適応された基礎モデルを作成する。
オフサイトチューニングは双方のプライバシーを守り、モデルの全重みへのアクセスを必要とする既存の微調整方法よりも計算効率が良い。
様々な大規模言語および視覚基盤モデルにおけるオフサイトチューニングの有効性を示す。
オフサイトチューニングは、プライバシ保存と効率が良く、6.5倍のスピードアップと5.6倍のメモリ削減を実現している。
コードはhttps://github.com/mit-han-lab/offsite-tuningで入手できる。
関連論文リスト
- Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。
私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。
近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - Resource Allocation and Secure Wireless Communication in the Large Model-based Mobile Edge Computing System [17.170641947389505]
微調整の大規模モデルは計算集約的であり、多くのユーザにとって実用的ではないことが多い。
これらの課題に対処するために,オフサイトチューニングと物理層セキュリティを組み合わせたシステムを導入する。
本稿では,エッジ上に配置されたデータ所有者と大規模モデル所有者の計算資源配分の最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-06-29T07:29:29Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Forward Compatible Training for Representation Learning [53.300192863727226]
後方互換トレーニング(BCT)は、新しいモデルのトレーニングを変更して、その表現を古いモデルのトレーニングと互換性を持たせる。
BCTは新しいモデルの性能を著しく損なう可能性がある。
本研究では,表現学習のための新しい学習パラダイムである,前方互換学習(FCT)を提案する。
論文 参考訳(メタデータ) (2021-12-06T06:18:54Z) - OSOA: One-Shot Online Adaptation of Deep Generative Models for Lossless
Compression [49.10945855716001]
本稿では,事前学習した深部生成モデルから始まり,そのモデルに動的システムを適用してデータバッチを圧縮する手法を提案する。
実験結果から、バニラOSOAは、トレーニング対象のモデルとスペースに対して、すべてのターゲットに対して1つのモデルを使用することに対して、かなりの時間を節約できることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:18:25Z) - DeepObliviate: A Powerful Charm for Erasing Data Residual Memory in Deep
Neural Networks [7.687838702806964]
DeepObliviateと呼ばれるアプローチを提案し、マシンアンラーニングを効率的に実装します。
本手法は,中間モデルをハードディスク上に格納することで,元のトレーニングプロセスを改善する。
ゼロから再トレーニングする方法と比較して、99.0%、95.0%、91.9%、96.7%、74.1%の精度と66.7$times$、75.0$times$、33.3$times$、29.4$times$、13.7$times$ speedupsが得られる。
論文 参考訳(メタデータ) (2021-05-13T12:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。