論文の概要: GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection
- arxiv url: http://arxiv.org/abs/2603.09865v1
- Date: Tue, 10 Mar 2026 16:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.451003
- Title: GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection
- Title(参考訳): GAST: データ層選択による大規模言語モデルのグラディエント整合スパースチューニング
- Authors: Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao,
- Abstract要約: グラディエント・アライメント・スパース・チューニング(GAST)はデータ次元と層次元の両方で選択的微調整を同時に行う革新的な手法である。
GASTは、各レイヤに対して最も影響の大きいデータポイントを適応的に選択する層スパース戦略を採用することで、情報の冗長性を特に狙う。
- 参考スコア(独自算出の注目度): 12.622280605476256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Parameter-Efficient Fine-Tuning (PEFT) has become a key strategy for adapting large language models, with recent advances in sparse tuning reducing overhead by selectively updating key parameters or subsets of data. Existing approaches generally focus on two distinct paradigms: layer-selective methods aiming to fine-tune critical layers to minimize computational load, and data-selective methods aiming to select effective training subsets to boost training. However, current methods typically overlook the fact that different data points contribute varying degrees to distinct model layers, and they often discard potentially valuable information from data perceived as of low quality. To address these limitations, we propose Gradient-aligned Sparse Tuning (GAST), an innovative method that simultaneously performs selective fine-tuning at both data and layer dimensions as integral components of a unified optimization strategy. GAST specifically targets redundancy in information by employing a layer-sparse strategy that adaptively selects the most impactful data points for each layer, providing a more comprehensive and sophisticated solution than approaches restricted to a single dimension. Experiments demonstrate that GAST consistently outperforms baseline methods, establishing a promising direction for future research in PEFT strategies.
- Abstract(参考訳): パラメータ効率の良いファインチューニング(PEFT)は、大きな言語モデルを適用する上で重要な戦略となり、最近のスパースチューニングの進歩により、重要なパラメータやデータのサブセットを選択的に更新することでオーバーヘッドを減らすことができる。
既存のアプローチでは、計算負荷を最小限に抑えるために重要なレイヤを微調整する層選択法と、トレーニングを促進するために効果的なトレーニングサブセットを選択するデータ選択法という、2つの異なるパラダイムに重点を置いている。
しかし、現在の手法は一般的に、異なるデータポイントが異なるモデルレイヤに様々な度合いをもたらしているという事実を見落としており、低品質と認識されるデータから潜在的に価値のある情報を排除していることが多い。
これらの制約に対処するために,データおよび層次元の選択的微調整を統一最適化戦略の不可欠な要素として同時に行う革新的な手法であるGAST(Gradient-aligned Sparse Tuning)を提案する。
GASTは、各レイヤに対して最も影響の大きいデータポイントを適応的に選択し、単一の次元に制限されたアプローチよりも包括的で洗練されたソリューションを提供する層スパース戦略を採用することで、情報の冗長性を特に目標としています。
実験により、GASTはベースライン法を一貫して上回り、PEFT戦略における将来の研究の有望な方向性を確立した。
関連論文リスト
- MIBoost: A Gradient Boosting Algorithm for Variable Selection After Multiple Imputation [0.0]
実際には、分析は欠落データによって複雑になることが多い。
提案するMIBoostは,命令付きデータセット間で均一な可変選択機構を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-29T13:42:38Z) - LASER: Stratified Selective Sampling for Instruction Tuning with Dedicated Scoring Strategy [5.130520244165049]
マルチステップパイプラインを使用することで、データ選択が効率的かつ普遍的に可能であることを示す。
タスクベースの分類を用いて最終データの構成を制御する。
この統合戦略は、最小限のオーバーヘッドで高性能な微調整を可能にする。
論文 参考訳(メタデータ) (2025-05-28T09:22:25Z) - Transfer Learning in $\ell_1$ Regularized Regression: Hyperparameter Selection Strategy based on Sharp Asymptotic Analysis [3.5374094795720854]
転送学習技術は、複数の関連するデータセットからの情報を活用し、ターゲットデータセットに対する予測品質を向上させることを目的としている。
トランス・ラッソ(Trans-Lasso)とプレトレーニング・ラッソ(Pretraining Lasso)である。
レプリカ法を用いて解析することにより,高次元環境下でのアルゴリズムの徹底的,精密な研究を行う。
微調整段階に転送される2種類の情報の1つを無視することは、一般化性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2024-09-26T10:20:59Z) - Exploring Selective Layer Fine-Tuning in Federated Learning [48.470385357429215]
フェデレートラーニング(FL)は,分散データを用いた基礎モデルの微調整のための,有望なパラダイムとして登場した。
FLにおける選択的層微調整について検討し、クライアントがローカルデータやリソースに応じて選択した層を調整できるフレキシブルなアプローチを強調した。
論文 参考訳(メタデータ) (2024-08-28T07:48:39Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。