論文の概要: Improving Recursive Transformers with Mixture of LoRAs
- arxiv url: http://arxiv.org/abs/2512.12880v1
- Date: Sun, 14 Dec 2025 23:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.47956
- Title: Improving Recursive Transformers with Mixture of LoRAs
- Title(参考訳): LoRAの混合による再帰変換器の改良
- Authors: Mohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian,
- Abstract要約: 共有フィードフォワードネットワーク(FFN)内にLoRA(Lo-Rank Adaptation)の専門家を挿入するLoRA(MoL)の混合
MoLは、バックボーンパラメータをアンタイズすることなく共有FFNのトークン条件の重み空間変調を可能にする。
ModernALBERTは、コンパクトモデル間で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 2.672804414228544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter sharing in recursive transformers reduces model size but collapses layer-wise expressivity. We propose Mixture of LoRAs (MoL), a lightweight conditional-computation mechanism that inserts Low-Rank Adaptation (LoRA) experts inside a shared feed-forward network (FFN). MoL enables token-conditional weight-space modulation of the shared FFN without untying backbone parameters, unlike prior approaches that add fixed or externally attached adapters. We pretrain a modernised recursive architecture, ModernALBERT, integrating rotary embeddings, GeGLU, FlashAttention, and a distillation-based initialisation. Across GLUE, SQuAD-v2, and BEIR, ModernALBERT (50M--120M) achieves state-of-the-art performance among compact models and surpasses larger fully parameterised baselines. We also propose an expert-merging procedure that compresses MoL into a single adapter at inference while preserving accuracy, enabling efficient deployment. Our results show that conditional weight-space modulation effectively restores the expressivity lost under aggressive parameter sharing in recursive transformers.
- Abstract(参考訳): 再帰変換器におけるパラメータ共有はモデルサイズを減少させるが、層ワイド表現性は崩壊する。
共有フィードフォワードネットワーク(FFN)内にローランド適応(LoRA)の専門家を挿入する軽量な条件計算機構であるLoRA(Mixture of LoRAs)を提案する。
MoLは、固定または外部アタッチメントアダプタを追加する以前のアプローチとは異なり、バックボーンパラメータをアンタイズすることなく共有FFNのトークン条件の重み空間変調を可能にする。
我々は、近代化された再帰的アーキテクチャであるModernALBERTを事前訓練し、ロータリー埋め込み、GeGLU、FlashAttention、蒸留に基づく初期化を統合する。
GLUE, SQuAD-v2, BEIRにまたがって, ModernALBERT (50M-120M) は, コンパクトモデル間の最先端性能を実現し, より大規模なパラメータ化ベースラインを超える。
また,精度を保ちながら単一のアダプタにMoLを圧縮し,効率よくデプロイできる専門家マージ手法を提案する。
この結果から,条件付き重み空間変調は,再帰的変圧器におけるアグレッシブパラメータ共有の下で失われる表現力を効果的に回復することを示した。
関連論文リスト
- MSLoRA: Multi-Scale Low-Rank Adaptation via Attention Reweighting [6.335488846185043]
MSLoRAはバックボーンに依存しないパラメータ効率のよいアダプタで、バックボーンを再調整するのではなく、フィーチャーレスポンスを再重み付けする。
MSLoRAは、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の両方の適応を統一する
論文 参考訳(メタデータ) (2025-11-16T00:35:37Z) - Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts [72.22148263683037]
ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
論文 参考訳(メタデータ) (2025-07-09T03:25:45Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - Sketch to Adapt: Fine-Tunable Sketches for Efficient LLM Adaptation [33.05581803204543]
事前訓練された大規模言語モデル(LLM)の適応は極めて重要であるが、その巨大なサイズのため困難である。
スケッチチューン(SketchTune)は、重みをコンパクトな微調整可能なスケッチに圧縮する圧縮適応戦略である。
SketchTuneは、低ランクメソッドではなくスケッチによって近似された行列クラスに関する数学的洞察によってサポートされている。
論文 参考訳(メタデータ) (2024-10-08T20:58:24Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。