論文の概要: Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts
- arxiv url: http://arxiv.org/abs/2507.07140v1
- Date: Wed, 09 Jul 2025 03:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.140615
- Title: Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts
- Title(参考訳): パラメータ効率の良いエキスパートのスケーラブルなマージのためのスパースアダプタの探索
- Authors: Samin Yeasar Arnob, Zhan Su, Minseon Kim, Oleksiy Ostapenko, Riyasat Ohib, Esra'a Saleh, Doina Precup, Lucas Caccia, Alessandro Sordoni,
- Abstract要約: ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
- 参考スコア(独自算出の注目度): 72.22148263683037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Merging parameter-efficient task experts has recently gained growing attention as a way to build modular architectures that can be rapidly adapted on the fly for specific downstream tasks, without requiring additional fine-tuning. Typically, LoRA serves as the foundational building block of such parameter-efficient modular architectures, leveraging low-rank weight structures to reduce the number of trainable parameters. In this paper, we study the properties of sparse adapters, which train only a subset of weights in the base neural network, as potential building blocks of modular architectures. First, we propose a simple method for training highly effective sparse adapters, which is conceptually simpler than existing methods in the literature and surprisingly outperforms both LoRA and full fine-tuning in our setting. Next, we investigate the merging properties of these sparse adapters by merging adapters for up to 20 natural language processing tasks, thus scaling beyond what is usually studied in the literature. Our findings demonstrate that sparse adapters yield superior in-distribution performance post-merging compared to LoRA or full model merging. Achieving strong held-out performance remains a challenge for all methods considered.
- Abstract(参考訳): パラメータ効率の高いタスクエキスパートのマージは、特定の下流タスクに迅速に適応できるモジュールアーキテクチャを構築する方法として、追加の微調整を必要とせずに、最近注目を集めている。
通常、LoRAはそのようなパラメータ効率のよいモジュラーアーキテクチャの基本構築ブロックとして機能し、トレーニング可能なパラメータの数を減らすために低ランクの重み構造を利用する。
本稿では,ベースニューラルネットワークにおける重みのサブセットのみをトレーニングするスパースアダプタの特性を,モジュラーアーキテクチャの潜在的構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルであり,LORAと完全微調整の両方において驚くほど優れる,高効率なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性を,最大20個の自然言語処理タスクにマージすることで検討した。
その結果, スパースアダプタは, LoRAやフルモデルのマージに比べて, 後処理性能が優れていた。
強力なホールドアウトパフォーマンスを達成することは、考慮されたすべての方法にとって依然として課題である。
関連論文リスト
- MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models [61.89384981175277]
ローランド適応 (LoRA) とミックスオブエキスパート (MoE) を統合するための固有テキストbfMixture-of-Adapters (MoA) アプローチを提案する。
実験結果から, 不均一なMoAは均一なMoE-LoRA法よりも性能およびパラメータ効率が優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T09:54:19Z) - PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment [20.382810396966473]
Low-Rank Adaptation (LoRA)は、Large Language Models (LLM) のためのパラメータ効率の良い微調整を可能にする
現在の手法は静的特異値分解サブセットを初期化することでLoRAを最適化し、事前学習された知識を最適に活用する。
我々はLunderlineoRunderlineA Mixture-of-Experunderlinet (GOAT)を提案する。
GOATはSVD構造化MoEを用いて関連する事前情報を統合し、理論スケーリング係数を導出して最適化を完全微調整MoEと整合させる
論文 参考訳(メタデータ) (2025-02-24T06:48:13Z) - Rank Also Matters: Hierarchical Configuration for Mixture of Adapter Experts in LLM Fine-Tuning [5.074620301447097]
本稿では,大規模言語モデル(LLM)のための専門家のアロケーションとランク設定のための階層型スキームHILOを提案する。
HILOは、層間のアダプタエキスパートの数とランクを動的に調整し、アダプタの粒度の異なるモデルレイヤの表現複雑性に適合する。
複数のベンチマークタスクの実験では、HILOが既存のメソッドよりも精度が高く、トレーニング可能なパラメータが少ないことが示されている。
論文 参考訳(メタデータ) (2025-02-06T08:58:03Z) - RECAST: Reparameterized, Compact weight Adaptation for Sequential Tasks [16.512587987753967]
RECASTはタスク固有のトレーニング可能なパラメータを50未満に劇的に削減する新しい手法である。
本稿では,RECASTが様々なスケール,アーキテクチャ,パラメータ空間において,最先端の技術を最大3%向上させることを示す。
論文 参考訳(メタデータ) (2024-11-25T19:08:38Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。