論文の概要: Symbiosis: Multi-Adapter Inference and Fine-Tuning
- arxiv url: http://arxiv.org/abs/2507.03220v1
- Date: Thu, 03 Jul 2025 23:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.624273
- Title: Symbiosis: Multi-Adapter Inference and Fine-Tuning
- Title(参考訳): 共生:マルチアダプタ推論と微調整
- Authors: Saransh Gupta, Umesh Deshpande, Travis Janssen, Swami Sundararaman,
- Abstract要約: 微細チューニングのためのPEFT技術の普及は、人気のある大規模言語モデルのためのアダプタの作成につながった。
既存のフレームワークは、推論や複数のアダプタによる微調整をサポートしていない。
Symbiosisでは、ベースモデルのas-a-serviceデプロイメントを可能にすることで、上記の問題に対処する。
- 参考スコア(独自算出の注目度): 1.8909283916360868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) allows model builders to capture the task specific parameters into adapters, which are a fraction of the size of the original base model. Popularity of PEFT technique for fine-tuning has led to creation of a large number of adapters for popular Large Language Models (LLMs). However, existing frameworks fall short in supporting inference or fine-tuning with multiple adapters in the following ways. 1) For fine-tuning, each job needs to deploy its dedicated base model instance, which results in excessive GPU memory consumption and poor GPU utilization. 2) While popular inference platforms can serve multiple PEFT adapters, they do not allow independent resource management or mixing of different PEFT methods. 3) They cannot share resources (such as base model instance) between inference and fine-tuning jobs. 4) They do not provide privacy to users who may not wish to expose their fine-tuned parameters to service providers. In Symbiosis, we address the above problems by enabling as-a-service deployment of base model. The base model layers can be shared across multiple inference or fine-tuning processes. Our split-execution technique decouples the execution of client-specific adapters and layers from the frozen base model layers offering them flexibility to manage their resources, to select their fine-tuning method, to achieve their performance goals. Our approach is transparent to models and works out-of-the-box for most models in the transformers library. Our evaluation on Llama2-13B shows the compared to baseline, Symbiosis can fine-tune 4X more adapters on the same set of GPUs in the same amount of time.
- Abstract(参考訳): パラメータ効率の細かいチューニング(PEFT)により、モデルビルダーはタスク固有のパラメータをアダプタにキャプチャできる。
微細チューニングのためのPEFT技術の普及により、人気のあるLarge Language Models (LLM) 用のアダプタが多数作成されている。
しかし、既存のフレームワークは、推論や複数のアダプタによる微調整をサポートしていない。
1) 微調整には、各ジョブが専用のベースモデルインスタンスをデプロイする必要がある。
2) 一般的な推論プラットフォームは複数のPEFTアダプタを利用できるが,独立したリソース管理や異なるPEFTメソッドの混合は許可されていない。
3) 推論と微調整ジョブの間でリソース(ベースモデルインスタンスなど)を共有できない。
4) サービスプロバイダに微調整されたパラメータを公開することを望まないユーザに対して、プライバシを提供しない。
Symbiosisでは、ベースモデルのas-a-serviceデプロイメントを可能にすることで、上記の問題に対処する。
ベースモデルレイヤは、複数の推論や微調整プロセスで共有できる。
我々の分割実行技術は、クライアント固有のアダプタとレイヤを凍結したベースモデルレイヤから切り離して、リソースの管理、微調整方法の選択、パフォーマンスの目標を達成するための柔軟性を提供します。
当社のアプローチはモデルに対して透過的で,トランスフォーマーライブラリのほとんどのモデルに対して,最初から動作しています。
Llama2-13Bの評価では,ベースラインと比較して,同じGPUセット上で4倍のアダプタを同じ時間で微調整することができる。
関連論文リスト
- Multi LoRA Meets Vision: Merging multiple adapters to create a multi task model [1.2891210250935148]
本稿では,コンピュータビジョンタスクで訓練された複数のLoRAアダプタをマージできるかどうかを検討した。
6つの異なるタスクでアダプタを訓練し、それらがマージされたときのパフォーマンスを評価しました。
以上の結果から,アダプタをマージすることでマルチタスクモデルを生成する単純なマージ手法であっても,若干の性能を損なうことで実現可能であることが示唆された。
論文 参考訳(メタデータ) (2024-11-21T12:26:33Z) - Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models [40.41898661688188]
本稿では,制約ハードウェア上での大規模AIモデルの実行を最適化するフレームワークであるSuperpipelineを紹介する。
Superpipelineは、モデル精度と許容する処理速度を維持しながら、実験でGPUメモリ使用量を最大60%削減します。
論文 参考訳(メタデータ) (2024-10-11T13:17:05Z) - FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning [14.682336299498044]
タスク適応には,大規模な言語モデル(LLM)の微調整が不可欠である。
トークンレベルで計算を融合させることにより,LLM推論とPEFTに基づく共有GPUのファインタニングを共用する最初のシステムであるFlexLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-29T01:33:08Z) - Computron: Serving Distributed Deep Learning Models with Model Parallel
Swapping [5.429059120074075]
言語や画像理解などの分野における今日の最も優れたディープラーニングモデルの多くは、数十億のパラメータを含んでいる。
共有GPUクラスタ上で複数の分散モデルを提供するためにメモリスワップを使用するシステムであるComputronを開発した。
論文 参考訳(メタデータ) (2023-06-24T01:38:23Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - Petals: Collaborative Inference and Fine-tuning of Large Models [78.37798144357977]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
論文 参考訳(メタデータ) (2022-09-02T17:38:03Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Composable Sparse Fine-Tuning for Cross-Lingual Transfer [56.86192078426372]
事前学習されたモデルのパラメータを微調整することが、伝達学習の主流のアプローチとなっている。
本稿では,これら2つの望ましい特性を持つファインチューニング手法を提案する。
これは、ゼロショットのクロスランガル転送において、大きなマージンでアダプタを上回ります。
論文 参考訳(メタデータ) (2021-10-14T17:27:29Z) - AdapterHub: A Framework for Adapting Transformers [148.6877231725939]
AdapterHubは、さまざまなタスクや言語のためのトレーニング済みアダプタの動的"スティッチイン"を可能にするフレームワークである。
我々のフレームワークは、タスク固有のモデルの共有にスケーラブルで簡単にアクセスできる。
論文 参考訳(メタデータ) (2020-07-15T15:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。