論文の概要: Don't Forget the Nonlinearity: Unlocking Activation Functions in Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.13240v1
- Date: Tue, 16 Sep 2025 16:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.182384
- Title: Don't Forget the Nonlinearity: Unlocking Activation Functions in Efficient Fine-Tuning
- Title(参考訳): 非線形性を忘れてはいけない:効率的な微調整における活性化関数の解錠
- Authors: Bo Yin, Xingyi Yang, Xinchao Wang,
- Abstract要約: NoRAは、固定活性化を学習可能な有理関数に置き換え、構造化された低ランク更新を数値化係数と分母係数に適用する。
CIFAR-10とCIFAR-100で訓練された視覚変換器では、NoRAはパラメータのわずか0.4%を更新しながら完全な微調整に適合または超過する。
NoRAは低次元機能部分空間への適応を制約し、暗黙的に更新の規模と方向を規則化する。
- 参考スコア(独自算出の注目度): 82.16625951603315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing parameter-efficient fine-tuning (PEFT) methods primarily adapt weight matrices while keeping activation functions fixed. We introduce \textbf{NoRA}, the first PEFT framework that directly adapts nonlinear activation functions in pretrained transformer-based models. NoRA replaces fixed activations with learnable rational functions and applies structured low-rank updates to numerator and denominator coefficients, with a group-wise design that localizes adaptation and improves stability at minimal cost. On vision transformers trained on CIFAR-10 and CIFAR-100, NoRA matches or exceeds full fine-tuning while updating only 0.4\% of parameters (0.02M), achieving accuracy gains of +0.17\% and +0.27\%. When combined with LoRA (\textbf{NoRA++}), it outperforms LoRA and DoRA under matched training budgets by adding fewer trainable parameters. On LLaMA3-8B instruction tuning, NoRA++ consistently improves generation quality, yielding average MMLU gains of +0.3\%--0.8\%, including +1.6\% on STEM (Alpaca) and +1.3\% on OpenOrca. We further show that NoRA constrains adaptation to a low-dimensional functional subspace, implicitly regularizing update magnitude and direction. These results establish activation-space tuning as a complementary and highly parameter-efficient alternative to weight-based PEFT, positioning activation functions as first-class objects for model adaptation.
- Abstract(参考訳): 既存のパラメータ効率細調整法(PEFT)は、活性化関数を固定したまま、主に重み行列を適応させる。
本稿では,事前学習したトランスフォーマーモデルにおいて,非線形アクティベーション関数を直接適応する最初のPEFTフレームワークである「textbf{NoRA}」を紹介する。
NoRAは、固定されたアクティベーションを学習可能な有理関数に置き換え、数値係数と分母係数に構造化された低ランク更新を適用し、適応をローカライズし、最小コストで安定性を向上するグループワイズ設計を行う。
CIFAR-10 と CIFAR-100 で訓練された視覚変換器では、NoRA はパラメータの 0.4 % (0.02M) しか更新せず、精度は +0.17 % と +0.27 % である。
LoRA(\textbf{NoRA++})と組み合わせると、トレーニング可能なパラメータを少なくすることで、一致したトレーニング予算下でのLoRAとDoRAのパフォーマンスが向上する。
LLaMA3-8B命令チューニングでは、NoRA++は生成品質を継続的に改善し、平均MMLUゲインは+0.3\%-0.8\%となり、STEM(Alpaca)では+1.6\%、OpenOrcaでは+1.3\%となる。
さらに、NORAは低次元機能部分空間への適応を制約し、更新の規模と方向を暗黙的に規則化することを示した。
これらの結果は、重みに基づくPEFTの代替として活性化空間チューニングを確立し、モデルの適応のための第一級オブジェクトとして位置決め活性化関数を配置する。
関連論文リスト
- LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning [5.980897761790243]
フル微調整のように振る舞う新しいローランク適応法であるLoFTを紹介する。
LoFTはモデルの内部のダイナミクスを、すべてのモデルの重みを更新するものと整合させる。
実験的に、このアプローチはアダプタベースのチューニングとフル微調整の間のパフォーマンスギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-05-27T14:54:24Z) - DenseLoRA: Dense Low-Rank Adaptation of Large Language Models [14.133511131962786]
低ランク適応 (LoRA) は大規模言語モデル (LLM) に適応するための効率的なアプローチとして開発されている。
パラメータ効率を高めつつ,LoRAよりも優れた性能を実現する新しい手法であるDense Low-Rank Adaptation (DenseLoRA)を導入する。
我々はDenseLoRAを様々なベンチマークで評価し、LLaMA3-8B上のトレーニング可能なパラメータの0.70%とLoRAの80.8%の精度と比較して、トレーニング可能なパラメータの0.01%で83.8%の精度を達成することを示した。
論文 参考訳(メタデータ) (2025-05-27T08:19:07Z) - NoRA: Nested Low-Rank Adaptation for Efficient Fine-Tuning Large Models [27.757883818520217]
Nested Low-Rank Adaptation (NoRA) はパラメータ効率の良い微調整のための新しいアプローチである。
外部のLoRA重みを凍結し、内部のLoRA設計を使用することで、NORAはコンパクトなパラメータ空間で正確なタスク適応を可能にする。
論文 参考訳(メタデータ) (2024-08-18T12:18:56Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。