論文の概要: GAIN: Multiplicative Modulation for Domain Adaptation
- arxiv url: http://arxiv.org/abs/2604.04516v1
- Date: Mon, 06 Apr 2026 08:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.145736
- Title: GAIN: Multiplicative Modulation for Domain Adaptation
- Title(参考訳): GAIN: ドメイン適応のための乗法的修飾
- Authors: Hengshuai Yao, Xing Chen, Ahmed Murtadha, Guan Wang,
- Abstract要約: LLMを新しい領域に適応させると、標準手法(完全な微調整、LoRA)がウェイト空間に新しい方向を注入するため、忘れてしまう。
W_new = S * W の乗法によって既存の特徴を再強調する GAIN を提案する。
原理ミラーは神経科学において調節され、ニューロンは選択性を維持しながら応答強度を拡大することで文脈に適応する。
- 参考スコア(独自算出の注目度): 14.918031465338634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting LLMs to new domains causes forgetting because standard methods (full fine-tuning, LoRA) inject new directions into the weight space. We propose GAIN, which re-emphasizes existing features through multiplicative modulation W_new = S * W. The learned diagonal matrix S is applied to the attention output projection and optionally the FFN. The principle mirrors gain modulation in neuroscience, where neurons adapt to context by scaling response strength while preserving selectivity. We evaluate GAIN on five models from four families (774M to 70B), adapting sequentially across eight domains. GAIN-FFN matches LoRA's in-domain adaptation, but their effects on previously trained domains are opposite: GAIN-FFN improves them by 7-13% (validation PPL), while LoRA degrades them by 18-36%. Downstream accuracy confirms the pattern: for example, after seven sequential adaptations on Qwen2.5, GAIN-FFN degrades BoolQ by only 0.8% while LoRA damages it by 14.9%. GAIN adds 46K-230K parameters per model and can be absorbed into the pretrained weights for zero inference cost.
- Abstract(参考訳): LLMを新しい領域に適応させると、標準手法(完全な微調整、LoRA)がウェイト空間に新しい方向を注入するため、忘れてしまう。
W_new = S * W の乗法によって既存の特徴を再強調する GAIN を提案し,学習した対角行列 S を注目出力投影やFFN に適用する。
原理ミラーは神経科学において調節され、ニューロンは選択性を維持しながら応答強度を拡大することで文脈に適応する。
GAINを4つのモデル(774Mから70B)で評価し、8つのドメインに順次適応した。
GAIN-FFNはLoRAのドメイン内適応と一致するが、以前に訓練されたドメインに対する効果は反対である: GAIN-FFNはそれらを7-13%改善し(バリデーションPLP)、LoRAはそれらを18-36%低下させる。
例えば、Qwen2.5の7つの逐次適応の後、GAIN-FFNはBoolQをわずか0.8%低下させ、LoRAは14.9%低下させた。
GAINはモデルごとに46K-230Kパラメータを追加し、事前訓練された重みに吸収してゼロ推論コストを抑えることができる。
関連論文リスト
- Parameter-Efficient Domain Adaptation of Physics-Informed Self-Attention based GNNs for AC Power Flow Prediction [7.672324146121681]
物理制約付き逆推定のための電圧-レジムシフト下での制御可能な効率-精度トレードオフについて検討する。
複数のグリッドトポロジにまたがって提案されたLoRA+PHead適応は、ターゲットドメインのRMSEギャップを2.6times10-4$とすることで、ほぼ完全な微調整精度を回復し、トレーニング可能なパラメータの数を85.46%削減した。
論文 参考訳(メタデータ) (2026-02-20T14:07:51Z) - GRIT -- Geometry-Aware PEFT with K-FACPreconditioning, Fisher-Guided Reprojection, andDynamic Rank Adaptation [4.748720471060117]
GRITは、LoRAパラメータ化を保存する曲率対応のLoRAプロシージャである。
トレーニング可能なパラメータを平均で46%削減しながら、LoRAとQLoRAにマッチまたは超越する。
GRITは強力なPEFT最適化器ベースラインよりも低いドリフトと更新vs保持フロンティアが得られる。
論文 参考訳(メタデータ) (2026-01-01T06:31:54Z) - MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models [52.32146943039743]
人間のフィードバックからの強化学習は、生成モデルと人間の美学と知覚的嗜好を高度に一致させる。
MapReduce LoRA と Reward-aware Token Embedding (RaTE) の2つの補完手法を紹介する。
我々のフレームワークは、モダリティにまたがる新しい最先端のマルチ参照アライメントのレシピを定めている。
論文 参考訳(メタデータ) (2025-11-25T18:49:21Z) - Bayesian Low-Rank Factorization for Robust Model Adaptation [60.296574524609575]
本研究では,音声基礎モデルに対する因子化アダプタについて検討し,前処理をゼロに近い位置で行うことで,スペーサー適応行列を実現する。
その結果, 適応損失は最小限に抑えられたが, 基礎モデルの破滅的忘れを著しく減らした。
論文 参考訳(メタデータ) (2025-10-21T15:23:30Z) - Don't Forget the Nonlinearity: Unlocking Activation Functions in Efficient Fine-Tuning [82.16625951603315]
NoRAは、固定活性化を学習可能な有理関数に置き換え、構造化された低ランク更新を数値化係数と分母係数に適用する。
CIFAR-10とCIFAR-100で訓練された視覚変換器では、NoRAはパラメータのわずか0.4%を更新しながら完全な微調整に適合または超過する。
NoRAは低次元機能部分空間への適応を制約し、暗黙的に更新の規模と方向を規則化する。
論文 参考訳(メタデータ) (2025-09-16T16:47:03Z) - NLoRA: Nyström-Initiated Low-Rank Adaptation for Large Language Models [12.431575579432458]
SLoRA(StructuredLoRA)を導入し,低ランク行列AとBの間に小さな中間行列を加えることを検討した。
次に、Nystr"omLoRA(NLoRA)を提案し、Nystr"om-based initialization for SLoRAを用いて、その有効性と効率を改善する。
最後に,NLoRAの中間行列のみを微調整してLLM効率を向上するIntermediateTune(IntTune)を提案する。
論文 参考訳(メタデータ) (2025-02-20T12:01:11Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。