論文の概要: AdaGradSelect: An adaptive gradient-guided layer selection method for efficient fine-tuning of SLMs
- arxiv url: http://arxiv.org/abs/2512.15764v1
- Date: Fri, 12 Dec 2025 09:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.677416
- Title: AdaGradSelect: An adaptive gradient-guided layer selection method for efficient fine-tuning of SLMs
- Title(参考訳): AdaGradSelect:SLMの高効率微調整のための適応勾配誘導層選択法
- Authors: Anshul Kumar, Gagan Raj Gupta, Manisha Chawla,
- Abstract要約: 大きな言語モデル(LLM)は、多くのNLPタスクをうまく実行できますが、完全な微調整は高価で、多くのメモリを必要とします。
AdaGradSelectは、勾配に基づいて、どのトランスフォーマーブロックを更新するかを選択する適応的な方法である。
実験によると、AdaGradSelectは12%高速で、GPUメモリを35%削減している。
- 参考スコア(独自算出の注目度): 0.6652641137999891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can perform many NLP tasks well, but fully fine-tuning them is expensive and requires a lot of memory. Parameter-Efficient Fine-Tuning (PEFT) methods such as LoRA reduce this cost by adding small low-rank updates to frozen model weights. However, these methods restrict the training to a limited subspace, which can sometimes reduce performance. For Small Language Models (SLMs), where efficiency gains matter even more, we introduce AdaGradSelect, an adaptive method that selects which transformer blocks to update based on gradients. Early observations showed that updating only the transformer blocks with the highest gradient norms can achieve performance close to full fine-tuning. Building on this insight, AdaGradSelect adaptively chooses which blocks to train. It uses a combination of Dirichlet-based sampling, which depends on how frequently blocks were updated in the past, and an epsilon-greedy exploration strategy. This lets the method explore different blocks in early training and gradually focus on the most important ones in later epochs. Experiments show that AdaGradSelect trains about 12 percent faster and uses 35 percent less GPU memory while delivering performance very close to full fine-tuning. On the GSM8K dataset, it outperforms LoRA (rank 256) by about 3 percent on average across models such as Qwen2.5-0.5B, LLaMA3.2-1B, and Phi4-mini-3.8B. It also achieves similar accuracy on the MATH dataset. Overall, AdaGradSelect provides a more effective and resource-efficient alternative to traditional fine-tuning methods.
- Abstract(参考訳): 大きな言語モデル(LLM)は、多くのNLPタスクをうまく実行できますが、完全な微調整は高価で、多くのメモリを必要とします。
LoRAのようなパラメータ効率の良いファインチューニング(PEFT)手法は、凍結モデルウェイトに小さな低ランク更新を追加することで、このコストを削減する。
しかし、これらの手法は訓練を限られた部分空間に制限し、性能を低下させることがある。
効率がさらに向上するSmall Language Models (SLM) では、勾配に基づいてどのトランスフォーマーブロックを更新するかを選択する適応的手法であるAdaGradSelectを導入する。
初期の観測では、高い勾配ノルムを持つ変圧器ブロックのみを更新することで、完全な微調整に近い性能が得られることが示された。
この洞察に基づいて、AdaGradSelectは、どのブロックをトレーニングするかを適応的に選択する。
ディリクレをベースとしたサンプリングは、過去にどれだけの頻度でブロックが更新されたか、そしてエプシロンとグレーディの探索戦略に依存している。
これにより、初期の訓練で異なるブロックを探索し、後期の時代の最も重要なブロックに徐々に焦点を合わせることができる。
実験によると、AdaGradSelectは12%高速でGPUメモリを35%削減し、フル微調整に近いパフォーマンスを実現している。
GSM8Kデータセットでは、Qwen2.5-0.5B、LLaMA3.2-1B、Phi4-mini-3.8Bといったモデルで平均でLoRA(256ランク)を上回っている。
また、MATHデータセット上でも同様の精度を達成する。
全体として、AdaGradSelectは従来の微調整メソッドよりも効率的でリソース効率の良い代替手段を提供する。
関連論文リスト
- Gradient-based Fine-Tuning through Pre-trained Model Regularization [20.823624386591902]
重み行列の行や列を更新する効率的な勾配ベースおよび正規化微調整法(GRFT)を提案する。
GRFTは最先端のパフォーマンスを実現し、GPS、Adapter Tuning、LoRAといった既存の手法を超越している。
論文 参考訳(メタデータ) (2025-06-14T14:41:03Z) - PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - Learning to Generate Gradients for Test-Time Adaptation via Test-Time Training Layers [18.921532965557475]
テストタイム適応は、未ラベルのテストデータを使用してトレーニングされたモデルをオンラインで微調整することを目的としている。
この最適化プロセスでは、エントロピーのような教師なし学習目標がノイズの多い学習信号に頻繁に遭遇する。
そこで我々は,メタグラディエント・ジェネレータと呼ばれるエントロピー・ジェネレータを自動的に学習するために,学習と最適化のアプローチを採用した。
論文 参考訳(メタデータ) (2024-12-22T07:24:09Z) - SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。
SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文 参考訳(メタデータ) (2024-10-09T19:03:52Z) - BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。
微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T05:45:12Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent
for Few-Shot Learning [83.26610968655815]
Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。
BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
論文 参考訳(メタデータ) (2022-05-23T11:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。