論文の概要: Random Initialization of Gated Sparse Adapters
- arxiv url: http://arxiv.org/abs/2511.01794v1
- Date: Mon, 03 Nov 2025 17:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.354791
- Title: Random Initialization of Gated Sparse Adapters
- Title(参考訳): ゲート付きスパースアダプタのランダム初期化
- Authors: Vi Retault, Yohaï-Eliel Berreby,
- Abstract要約: 我々は, Gated Sparse Adapters (RIGSA) のランダム初期化を導入する。
RIGSAはランダムなフルランクゲート、ReZeroアナログのアダプタから始まり、それらを反復的な大きさのプルーニングで分割する。
Instruct on SmolLM2-1.7B-Instruct using a novel vision-in-text task (Textual MNIST) and measure forgeting on PIQA, HellaSwag, GSM8k。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When fine-tuning language models on new tasks, catastrophic forgetting -- performance degradation on previously-learned tasks -- is a ubiquitous problem. While Parameter-Efficient Fine-Tuning (PEFT) methods like LoRA address this through low-rank adapters, sparse adaptation offers an alternative that doesn't impose rank constraints. We introduce Random Initialization of Gated Sparse Adapters (RIGSA), which starts from randomly-initialized full-rank adapters, gates them with a ReZero analog, and sparsifies them with iterative magnitude pruning. We evaluate RIGSA on SmolLM2-1.7B-Instruct using a novel vision-in-text task (Textual MNIST) and measure forgetting on PIQA, HellaSwag, and GSM8k. SmolLM2-1.7B-Instruct initially performs around chance level on Textual MNIST, and is capable of learning the task through RIGSA, 4-bit QLoRA and random masking. In spite of having more trainable parameters than QLoRA, the RIGSA configurations that we studied displayed less forgetting than QLoRA, particularly on GSM8k, though it performs comparably to random masking.
- Abstract(参考訳): 新しいタスクを微調整する言語モデルでは、破滅的な忘れ -- 以前に学習したタスクのパフォーマンス低下 -- は、ユビキタスな問題です。
LoRAのようなパラメータ効率の良いファインチューニング(PEFT)メソッドは低ランクのアダプタを通じてこの問題に対処するが、スパース適応はランク制約を課さない代替手段を提供する。
本稿では,Random Initialization of Gated Sparse Adapters (RIGSA)について紹介する。
Instruct on SmolLM2-1.7B-Instruct using a novel vision-in-text task (Textual MNIST) and measure forgeting on PIQA, HellaSwag, GSM8k。
SmolLM2-1.7B-Instruct は当初 Textual MNIST 上で実行され、RIGSA、4ビットQLoRA、ランダムマスキングを通じてタスクを学習できる。
トレーニング可能なパラメータがQLoRAよりも多いにもかかわらず、私たちが調査したRIGSA構成は、特にGSM8kでは、QLoRAよりも忘れられにくい。
関連論文リスト
- QR-LoRA: QR-Based Low-Rank Adaptation for Efficient Fine-Tuning of Large Language Models [0.0]
Low-Rank Adaptation (LoRA)は、トレーニング済みの重みに低ランク更新を適用することで、トレーニング可能なパラメータの数を減らす手法である。
QR-LoRAは, 完全微調整, 標準LoRA, SVD-LoRAの性能と一致するか, 以上の性能を示す。
論文 参考訳(メタデータ) (2025-08-29T17:47:27Z) - Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts [72.22148263683037]
ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
論文 参考訳(メタデータ) (2025-07-09T03:25:45Z) - Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。
ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文 参考訳(メタデータ) (2025-06-19T15:38:21Z) - Singular Value Decomposition on Kronecker Adaptation for Large Language Model [0.8747606955991707]
大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。
完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。
我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
論文 参考訳(メタデータ) (2025-06-18T08:28:53Z) - Text-to-LoRA: Instant Transformer Adaption [16.530637840459725]
Text-to-LoRAは、自然言語記述のみに基づいて、大規模言語モデル(LLM)をオンザフライで適用可能なモデルである。
アドホックに再構成されたLoRAインスタンスは,タスク固有のアダプタの性能に適合することを示す。
また、T2Lは数百のLoRAインスタンスを圧縮し、ゼロショットを全く見えないタスクに一般化できることを示す。
論文 参考訳(メタデータ) (2025-06-06T14:11:27Z) - SSMLoRA: Enhancing Low-Rank Adaptation with State Space Model [11.90104174705911]
低ランク行列を相互接続するための低ランク適応(LoRA)の拡張であるSSMLoRA(State Space Model Low-Rank Adaptation)を提案する。
本手法は一般言語評価(GLUE)ベンチマークでLoRAに匹敵する性能を達成し,パラメータの半分しか使用していない。
論文 参考訳(メタデータ) (2025-02-07T14:22:35Z) - NOLA: Compressing LoRA using Linear Combination of Random Basis [22.76088132446952]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
NOLAは、ランク1のLoRAと比較してパラメータ数がはるかに少ないLoRAモデルと同様に、最高の圧縮LoRAをアーカイブできる。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z) - Overcoming Catastrophic Forgetting with Gaussian Mixture Replay [79.0660895390689]
ガウス混合モデル(GMM)に基づく連続学習(CL)のためのリハーサルベースアプローチを提案する。
過去のタスクからサンプルを生成し,現在のトレーニングデータと統合することで,破滅的忘れ(cf)を緩和する。
複数の画像データセットでGMRを評価し,クラス別サブタスクに分割する。
論文 参考訳(メタデータ) (2021-04-19T11:41:34Z) - MLE-guided parameter search for task loss minimization in neural
sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文 参考訳(メタデータ) (2020-06-04T22:21:22Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。