論文の概要: MoLoRA: Composable Specialization via Per-Token Adapter Routing
- arxiv url: http://arxiv.org/abs/2603.15965v1
- Date: Mon, 16 Mar 2026 22:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.017302
- Title: MoLoRA: Composable Specialization via Per-Token Adapter Routing
- Title(参考訳): MoLoRA: トークンごとのアダプタルーティングによる構成可能な特殊化
- Authors: Shrey Shah, Justin Wagle,
- Abstract要約: 本稿では,個々のトークンを,語彙構造(マルチモーダルモデル)や学習ゲーティング(セマンティック特殊化)に基づいて,アダプタにルーティングする。
複数のドメイン固有のアダプタをロードし、学習したルータに1トークンあたりの適切なアダプタを選択させる。
MoLoRAは、4つの推論ベンチマークでQwen3-1.7Bを4.7倍小さくしてQwen3-8Bを超えることを可能にする。
- 参考スコア(独自算出の注目度): 0.9310318514564272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-adapter serving systems route entire sequences to a single adapter, forcing a choice when requests span multiple domains. This assumption fails in two important settings: (1) multimodal generation, where text and image tokens require different adapters within the same sequence, and (2) mixed-capability requests like "write code to solve this equation," which need expertise from multiple specialized adapters. We introduce per-token routing, which routes individual tokens to adapters based on either vocabulary structure (for multimodal models) or learned gating (for semantic specialization). Per-token routing is provably optimal, achieving work N for N tokens versus K \cdot N for per-sequence routing with K adapter types. Our key contribution is MoLoRA (Mixture of LoRA), which enables composable specialization: load multiple domain-specific adapters and let a learned router select the appropriate adapter per-token. We demonstrate that specialization dramatically beats scale: MoLoRA enables Qwen3-1.7B to exceed Qwen3-8B across four reasoning benchmarks while being 4.7x smaller. This enables modular expertise at inference time: train focused LoRAs independently, combine them without retraining, and add new capabilities by simply loading new adapters.
- Abstract(参考訳): マルチアダプタサービスシステムはシーケンス全体を単一のアダプタにルーティングし、リクエストが複数のドメインにまたがる場合に選択を強制する。
この仮定は、(1)テキストと画像トークンが同じシーケンス内で異なるアダプタを必要とするマルチモーダル生成、(2)複数の特別なアダプタの専門知識を必要とする"この方程式を解くコードを書く"のような混合機能要求の2つの重要な設定で失敗する。
本稿では,個々のトークンを,語彙構造(マルチモーダルモデル)や学習ゲーティング(セマンティック特殊化)に基づいて,アダプタにルーティングする。
N トークンに対する作業 N と K アダプタタイプによるシーケンスごとのルーティング K \cdot N を達成できる。
これは、複数のドメイン固有のアダプタをロードし、学習したルータが1トークンあたりの適切なアダプタを選択するという、構成可能な特殊化を可能にするものです。
MoLoRAは、4つの推論ベンチマークでQwen3-1.7Bを4.7倍小さくしてQwen3-8Bを超えることを可能にする。
集中型LoRAを個別にトレーニングし、再トレーニングせずにそれらを組み合わせ、新しいアダプタを単にロードすることで、新たな機能を追加する。
関連論文リスト
- Effective LoRA Adapter Routing using Task Representations [3.0111172730438565]
ローランク適応 (LoRA) は、モジュール型アダプタによる大規模言語モデル (LLM) のパラメータ効率の良い特殊化を可能にする。
本稿では,新しいルーティングフレームワークであるLORAUTERを紹介し,適応特性ではなくタスク表現を用いてLoRAアダプタを選択し,構成する。
論文 参考訳(メタデータ) (2026-01-29T14:41:24Z) - Integrating Task-Specific and Universal Adapters for Pre-Trained Model-based Class-Incremental Learning [33.57130798344366]
本稿では,タスク特化およびユニバーサルアダプタ(TUNA)の統合を提案する。
具体的には、タスク固有のアダプタをトレーニングし、それぞれのタスクに関連する最も重要な特徴をキャプチャします。
我々は,タスク間で共有される最も差別的な特徴を符号化するユニバーサルアダプタを構築するために,アダプタ融合戦略を利用する。
論文 参考訳(メタデータ) (2025-08-11T16:41:04Z) - MergeRepair: An Exploratory Study on Merging Task-Specific Adapters in Code LLMs for Automated Program Repair [5.006064616335817]
大規模言語モデル(LLM)は、いくつかのソフトウェア開発関連のタスクで高い能力を示している。
アダプタは特定のニーズに合わせてLSMをカスタマイズするより効率的な方法を提供する。
モデル(およびアダプタ)のマージは、複数のタスクが可能な1つのモデルを開発する技術として登場した。
論文 参考訳(メタデータ) (2024-08-18T18:45:48Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - Multilingual Domain Adaptation for NMT: Decoupling Language and Domain
Information with Adapters [66.7986513246294]
機械翻訳の文脈における言語とドメインアダプタの構成性について検討する。
部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば欠落した言語を破滅的に忘れてしまう。
論文 参考訳(メタデータ) (2021-10-18T18:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。