論文の概要: On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters
- arxiv url: http://arxiv.org/abs/2606.02437v1
- Date: Mon, 01 Jun 2026 16:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.48827
- Title: On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters
- Title(参考訳): PEFTのスケーリングについて-トリリオンパラメータの100万の個人モデルに向けて-
- Authors: Mind Lab, :, Song Cao, Vic Cao, Kaijie Chen, Bunny Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Autumn Jin, Fancy Kong, Kyrie Lei, Alexy Li, Dawn Li, Ray Li, Theo Li, Wenhao Li, Jiayi Lin, Domini Liu, Heshan Liu, Kairus Liu, Logan Liu, Maeve Luo, Runism Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Maxwell Yao, Regis Ye, Wenlin Ye, Yanying Ye, Josh Ying, Danney Zeng, Salmon Zhan, Anya Zhang, Ruijia Zhang, Shiyang Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Sizer Zhou, Xinyue Zhu, Murphy Zhuang,
- Abstract要約: 強共有基盤モデル上で, 学習可能な小型アダプタを永続的局所状態として研究する。
スケールアップ(Scale Up)、スケールダウン(Scale Down)、スケールアウト(Scale Out)という3つのスケーリング軸に関する問題を整理します。
その結果,PEFTは永続的個人モデルのためのコンパクトな基板であることが示唆された。
- 参考スコア(独自算出の注目度): 16.954716492120102
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) is usually treated as a cheaper alternative to full fine-tuning. We study a broader role: small trainable adapters as persistent local state on top of strong shared foundation models. In this framing, the base model provides shared competence while adapters carry instance-specific behavior such as preferences, skills, tool habits, and memory-like updates. We organize the problem around three scaling axes: Scale Up, where stronger shared priors make small local updates more useful; Scale Down, where we study how small adapters can be while remaining reliable; and Scale Out, where many persistent adapted instances coexist. MinT provides one infrastructure example for managing adapter identity, revision, provenance, evaluation, and serving residency. Together, the results suggest that PEFT can be a compact substrate for persistent personal models rather than only a budget substitute for full fine-tuning.
- Abstract(参考訳): パラメータ効率のよいファインチューニング(PEFT)は通常、完全なファインチューニングの代替品として扱われる。
我々は、強力な共有基盤モデルの上に、小さなトレーニング可能なアダプタを永続的なローカル状態として、より広範な役割について研究する。
このフレーミングでは、ベースモデルは共通能力を提供し、アダプタは好み、スキル、ツールの習慣、メモリライクな更新など、インスタンス固有の振る舞いを運ぶ。
より強力な共有プリエントが小さなローカルアップデートをより便利にするScale Up、信頼性を維持しながらアダプタがいかに小さいかを調査するScale Down、多くの永続的なインスタンスが共存するScale Outという3つのスケーリング軸に関する問題を整理します。
MinTは、アダプタのアイデンティティ、リビジョン、証明、評価、在職期間を管理するためのインフラストラクチャの例を提供する。
その結果,PEFTは完全な微調整の代用としてではなく,永続的な個人モデルのためのコンパクトな基板である可能性が示唆された。
関連論文リスト
- SOLAR: Communication-Efficient Model Adaptation via Subspace-Oriented Latent Adapter Reparametrization [21.389930928202535]
SOLARは、PEFTアダプタの通信コストを大幅に削減する後処理圧縮フレームワークである。
モデルに依存しず、LoRA、AdaLoRA、その他のアダプタモジュールを含む既存のPEFTメソッドと互換性がある。
論文 参考訳(メタデータ) (2026-04-09T15:34:13Z) - TuckA: Hierarchical Compact Tensor Experts for Efficient Fine-Tuning [83.93651411533533]
4つのキー特性を持つTucker Adaptation(TuckA)を導入する。
我々は,ルータのパラメータサイズを$L$の係数で削減する,効率的なバッチレベルルーティング機構を開発した。
自然言語理解、画像分類、数学的推論におけるベンチマーク実験は、TuckAの有効性を物語っている。
論文 参考訳(メタデータ) (2025-11-10T09:03:16Z) - Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts [72.22148263683037]
ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
論文 参考訳(メタデータ) (2025-07-09T03:25:45Z) - Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning [55.384428765798496]
新しいデータは、Eコマースプラットフォームレビューのような、長期にわたる流通を示す。
これは、忘れずに不均衡なデータを連続的なモデルで学習する必要がある。
LTCILの例として,AdaPtive Adapter Routing (APART) を提案する。
論文 参考訳(メタデータ) (2024-09-11T17:52:00Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - When does Parameter-Efficient Transfer Learning Work for Machine
Translation? [8.862707047517913]
以前の研究は、PEFTは機械翻訳(MT)ではうまく機能しないことを示している。
我々は,(1)パラメータ予算,(2)言語ペアの多種多様なセット,(3)事前学習モデルを考慮した,MT用PEFTの総合的な実証的研究を行った。
事前学習モデルが大きいPEFTを用いて、より小さなモデルで完全な微調整を行うことができ、訓練データサイズが小さい場合には、同じ事前学習モデルで完全な微調整を行う。
論文 参考訳(メタデータ) (2022-05-23T12:49:46Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。