論文の概要: NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches
- arxiv url: http://arxiv.org/abs/2603.06492v1
- Date: Fri, 06 Mar 2026 17:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.293007
- Title: NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches
- Title(参考訳): NOBLE:非線形低ランク分岐を有する加速変圧器
- Authors: Ethan Smith,
- Abstract要約: 非線形低ランク分岐を変換器の線形層に追加するアーキテクチャ拡張であるNOBLEを導入する。
NOBLEはオーバーヘッドを最小限に抑えて大幅な改善を実現している。
LLM(250Mおよび1.5Bパラメータ)、BERT、VQGAN、ViTの実験は、トレーニング効率を継続的に改善した。
- 参考スコア(独自算出の注目度): 1.8613536568358355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce NOBLE (Nonlinear lOw-rank Branch for Linear Enhancement), an architectural augmentation that adds nonlinear low-rank branches to transformer linear layers. Unlike LoRA and other parameter-efficient fine-tuning (PEFT) methods, NOBLE is designed for pretraining from scratch. The branch is a permanent part of the architecture as opposed to an adapter for finetuning on top of frozen weights. The branch computes σ(xWdown)Wup where σ is a learnable nonlinearity. We evaluate several activation functions and find that CosNet, a two-layer cosine nonlinearity with learnable frequency and phase with a linear projection in between them in the bottleneck space, performs best. NOBLE achieves substantial improvements with minimal overhead: up to 1.47x step speedup to reach baseline eval loss (up to 32% fewer training steps), with as low as 4% additional parameters and 7% step time overhead, resulting in up to 1.22x net wallclock speedup. Experiments on LLMs (250M and 1.5B parameters), BERT, VQGAN, and ViT consistently show improved training efficiency. We identify one caveat: Mixup/CutMix augmentation interferes with NOBLE's benefits in Imagenet classification along with other stochastic augmentations, but when disabled, ViT also improves. This discrepancy is possibly explained by regularization techniques that encourage smoother fits to the target function while NOBLE may specialize more in sharper aspects of the target function.
- Abstract(参考訳): 非線形低ランク分岐を変換器の線形層に追加するアーキテクチャ拡張であるNOBLE(Nonlinear lOw-rank Branch for Linear Enhancement)を導入する。
LoRAや他のパラメータ効率の良い微調整法とは異なり、NOBLEはスクラッチから事前訓練するために設計されている。
枝は、凍結した重量の上に微細化するためのアダプタとは対照的に、アーキテクチャの恒久的な部分である。
枝は σ(xWdown)Wup を計算し、σ は学習可能な非線形性である。
複数のアクティベーション関数を評価し,2層コサイン非線形性(学習可能な周波数と位相)とボトルネック空間における線形投影性(線形投影性)を両立させたCosNetが最良であることを示す。
NOBLEは、最大1.47倍のスピードアップでベースラインの楕円損失(最大32%のトレーニングステップ)を達成し、4%の追加パラメータと7%のステップタイムオーバーヘッドを達成し、最大1.22倍のネットウォールクロックスピードアップを実現している。
LLM(250Mおよび1.5Bパラメータ)、BERT、VQGAN、ViTの実験は、トレーニング効率を継続的に改善した。
Mixup/CutMix拡張は、他の確率的拡張とともに、画像ネット分類におけるNOBLEの利点を阻害するが、ViTが無効になった場合も改善する。
この相違は、ターゲット関数によりスムーズな適合を促す正規化手法によって説明され、NOBLEはターゲット関数のよりシャープな側面を専門化することができる。
関連論文リスト
- Plug-and-Play Homeostatic Spark: Zero-Cost Acceleration for SNN Training Across Paradigms [40.57310813106791]
スパイキングニューラルネットワークは、イベント駆動計算、スパースアクティベーション、ハードウェア効率を提供するが、トレーニングはしばしばゆっくりと収束し、安定性に欠ける。
AHSAR(Adaptive Homeostatic Spiking Activity Regulation)は,超簡易なプラグインおよびトレーニングパラダイムである。
AHSARは最適化を安定化し、モデルアーキテクチャや損失、勾配を変更することなく収束を加速する。
論文 参考訳(メタデータ) (2025-12-04T17:26:46Z) - Kernelized Sparse Fine-Tuning with Bi-level Parameter Competition for Vision Models [80.50996301430108]
スパースチューニングは、下流タスクに最も関係のある重みだけを調整することで、顕著なパフォーマンスを達成する。
上述の制限を克服する一段法SNELLAを提案する。
SNELLAは低メモリ使用量でSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T03:39:18Z) - Don't Forget the Nonlinearity: Unlocking Activation Functions in Efficient Fine-Tuning [82.16625951603315]
NoRAは、固定活性化を学習可能な有理関数に置き換え、構造化された低ランク更新を数値化係数と分母係数に適用する。
CIFAR-10とCIFAR-100で訓練された視覚変換器では、NoRAはパラメータのわずか0.4%を更新しながら完全な微調整に適合または超過する。
NoRAは低次元機能部分空間への適応を制約し、暗黙的に更新の規模と方向を規則化する。
論文 参考訳(メタデータ) (2025-09-16T16:47:03Z) - Harnessing Optimization Dynamics for Curvature-Informed Model Merging [17.42364575754576]
教師付き微調整では、複数の機能ベースのSFTチェックポイントを1つのモデルに統合する必要がある。
我々は、最適化トラジェクトリ・アウェア(OTA)マージと高速フィッシャーグラフティング(FFG)を導入する。
OTA+FFGは、強力な重量空間ベースラインよりもマージモデルの品質を改善し、負の転送を低減し、スパーシティレベルにわたって堅牢である。
論文 参考訳(メタデータ) (2025-09-14T08:59:53Z) - AuroRA: Breaking Low-Rank Bottleneck of LoRA with Nonlinear Mapping [28.37735374308455]
Aurora: (I) 完全な微調整性能を6.18%のパラメータで達成するだけでなく、(II) NLPとCVの両方のタスクにおいて、最先端PEFTメソッドを最大10.88%上回っている。
論文 参考訳(メタデータ) (2025-05-24T15:16:27Z) - Octic Vision Transformers: Quicker ViTs Through Equivariance [29.044546222577804]
我々は幾何学的対称性を捉えるためにOctic Vision Transformer (octic ViTs)を導入する。
われわれの八面体線形層はFLOPの5.33倍、メモリの8倍の低減を実現している。
我々は ImageNet-1K 上で octic ViT (DeiT-III) と unsupervised (DINOv2) を訓練する。
論文 参考訳(メタデータ) (2025-05-21T12:22:53Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models [8.481707805559589]
WeGeFT(Weight-Generative Fine-Tuning)は、トレーニング済みの重みから直接微調整重みを生成することを学習する新しい手法である。
この設計は、パラメータ、表現、計算、メモリの多面的効率を実現し、LoRAとその変種の性能を維持したり、超えたりしている。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。