論文の概要: GRASP: GRouped Activation Shared Parameterization for Parameter-Efficient Fine-Tuning and Robust Inference of Transformers
- arxiv url: http://arxiv.org/abs/2512.04296v1
- Date: Wed, 03 Dec 2025 22:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.903282
- Title: GRASP: GRouped Activation Shared Parameterization for Parameter-Efficient Fine-Tuning and Robust Inference of Transformers
- Title(参考訳): GRASP: GRouped Activation Shared Parameterization for Parameter-Efficient Fine-Tuning and Robust Inference of Transformer
- Authors: Malyaban Bal, Abhronil Sengupta,
- Abstract要約: 我々は,選択したレイヤのD次元トークン表現をKDグループに分割する軽量PEFTフレームワークGRASPを紹介し,各グループに対して共有スケーリングおよびシフトベクトルを学習する。
決定論的値ではなく,事前学習した重みに対する摂動としてガウス分布を学習するStochGRASPを提案する。
様々なノイズレベルの下で、StochGRASPは決定論的変異を一貫して上回り、エネルギー効率とノイズを発生させるハードウェアプラットフォームに適していることを示した。
- 参考スコア(独自算出の注目度): 12.475144734899674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) provides a scalable alternative to full-model adaptation by updating only a small subset of parameters in large pre-trained models. We introduce GRASP - GRouped Activation Shared Parameterization - a lightweight PEFT framework that partitions the D-dimensional token representations of selected layers into K << D groups and learns a shared scaling and shifting vector for each group. This grouped modulation reduces the number of trainable parameters significantly while preserving the ability of the model to learn task-specific features. Building on this formulation, we further propose StochGRASP, which learns Gaussian distributions as perturbations to the pre-trained weights rather than deterministic values. This probabilistic parameterization along with a noise-aware loss function formulation enables modelling hardware-level variability in programmed weights and significantly improves robustness under non-ideal inference conditions-an important requirement for deployment on edge-based emerging AI hardware. Across GLUE (RoBERTa-base & RoBERTa-large) and E2E NLG (GPT-2 Medium), GRASP matches or exceeds the performance of established PEFT methods while achieving an order of magnitude reduction in trainable parameters compared to LoRA and BitFit. Under varying levels of noise, StochGRASP consistently outperforms deterministic variants, demonstrating its suitability for energy-efficient and noise-prone hardware platforms.
- Abstract(参考訳): パラメータ効率細調整(PEFT)は、大規模な事前学習モデルにおいて、パラメータの小さなサブセットだけを更新することで、フルモデル適応のスケーラブルな代替手段を提供する。
GRASP - GRouped Activation Shared Parameterization - 選択したレイヤのD次元トークン表現をK<<D>グループに分割する軽量PEFTフレームワーク。
このグループ化変調は、タスク固有の特徴を学習するモデルの能力を維持しながら、トレーニング可能なパラメータの数を著しく削減する。
この定式化に基づいてさらにStochGRASPを提案し、決定論的値ではなく、事前学習された重みに対する摂動としてガウス分布を学習する。
この確率的パラメータ化とノイズ認識損失関数の定式化は、プログラムされたウェイトにおけるハードウェアレベルの変動をモデル化し、非理想的推論条件下での堅牢性を大幅に改善する。
GLUE (RoBERTa-base & RoBERTa-large) と E2E NLG (GPT-2 Medium) にまたがって, GRASP は, LoRA や BitFit と比較してトレーニング可能なパラメータの桁違いの縮小を実現しつつ, PEFT 法の性能に適合する。
様々なノイズレベルの下で、StochGRASPは決定論的変異を一貫して上回り、エネルギー効率とノイズを発生させるハードウェアプラットフォームに適していることを示した。
関連論文リスト
- High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - GEM: A Scale-Aware and Distribution-Sensitive Sparse Fine-Tuning Framework for Effective Downstream Adaptation [21.481261295689208]
勾配重量比とエントロピー誘導マスキング(GEM)
GEMは、初期トレーニング済みの値に比例して更新が重要であるパラメータを優先順位付けする。
また、パラメータ値のエントロピーに基づいて各層でチューニングすべきパラメータ数を適応的に決定する。
論文 参考訳(メタデータ) (2025-08-22T08:12:06Z) - Sparsity May Be All You Need: Sparse Random Parameter Adaptation [7.479026959617763]
アライメントとタスク適応のための大規模言語モデルの完全な微調整は、モデルのサイズが大きくなるにつれて、極めて高価になっている。
そこで本研究では,これらのモデルの微調整に必要な計算資源とメモリ資源を,モデルパラメータのすべてではなく,少数のパラメータでのみ訓練することで削減する手法を提案する。
PEFT技術がうまく機能することが本当に重要であるのは、必ずしも特定のアダプタ構造ではなく、トレーニング可能なパラメータの数である。
論文 参考訳(メタデータ) (2025-02-21T22:23:16Z) - QuIC: Quantum-Inspired Compound Adapters for Parameter Efficient Fine-Tuning [0.0]
大きなファンデーションモデルの完全な微調整は、GPUメモリとトレーニング時間を歪ませます。
量子インスパイア複合アダプタ(QuICアダプタ)について紹介する。
QuICアダプタは、ベースモデルの0.02%未満のメモリフットプリントを使用して、モデルを効果的に微調整することができる。
論文 参考訳(メタデータ) (2025-02-10T13:06:56Z) - FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。
低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。
本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文 参考訳(メタデータ) (2024-12-17T14:33:05Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。