論文の概要: HyperAdapt: Simple High-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2509.18629v1
- Date: Tue, 23 Sep 2025 04:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.700178
- Title: HyperAdapt: Simple High-Rank Adaptation
- Title(参考訳): HyperAdapt: シンプルなハイランク適応
- Authors: Abel Gurung, Joseph Campbell,
- Abstract要約: HyperAdaptは、トレーニング可能なパラメータの数を大幅に削減する、パラメータ効率のよい微調整手法である。
GLUE、算術推論、コモンセンス推論ベンチマークの実験では、HyperAdaptは完全な微調整および最先端PEFT法の性能とほぼ一致している。
- 参考スコア(独自算出の注目度): 3.4961780690075854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models excel across diverse tasks, but adapting them to specialized applications often requires fine-tuning, an approach that is memory and compute-intensive. Parameter-efficient fine-tuning (PEFT) methods mitigate this by updating only a small subset of weights. In this paper, we introduce HyperAdapt, a parameter-efficient fine-tuning method that significantly reduces the number of trainable parameters compared to state-of-the-art methods like LoRA. Specifically, HyperAdapt adapts a pre-trained weight matrix by applying row- and column-wise scaling through diagonal matrices, thereby inducing a high-rank update while requiring only $n+m$ trainable parameters for an $n \times m$ matrix. Theoretically, we establish an upper bound on the rank of HyperAdapt's updates, and empirically, we confirm that it consistently induces high-rank transformations across model layers. Experiments on GLUE, arithmetic reasoning, and commonsense reasoning benchmarks with models up to 14B parameters demonstrate that HyperAdapt matches or nearly matches the performance of full fine-tuning and state-of-the-art PEFT methods while using orders of magnitude fewer trainable parameters.
- Abstract(参考訳): ファンデーションモデルは様々なタスクにまたがって優れていますが、それを特殊なアプリケーションに適用するには、メモリと計算集約的なアプローチである微調整が必要です。
パラメータ効率のよい微調整法(PEFT)は、重量の小さな部分だけを更新することでこれを緩和する。
本稿では,パラメータ効率のよい微調整手法であるHyperAdaptを紹介し,LoRAのような最先端手法と比較してトレーニング可能なパラメータの数を大幅に削減する。
具体的には、HyperAdaptは、対角行列を通して行と列のスケーリングを適用することで、事前トレーニングされた重み行列に適応し、従って、$n \times m$行列に対してわずか$n+m$のトレーニング可能なパラメータしか必要とせず、ハイランクな更新を誘導する。
理論的には、HyperAdaptの更新ランクの上限を確立し、実験により、モデル層間の高階変換を一貫して誘導することを確認した。
GLUE(英語版)、算術推論(英語版)、コモンセンス推論(英語版)ベンチマークにおける14Bパラメータのモデルによる実験により、HyperAdaptは訓練可能なパラメータの桁数を極小に減らしながら、完全な微調整および最先端PEFTメソッドのパフォーマンスとほぼ一致していることが示された。
関連論文リスト
- Sparsity May Be All You Need: Sparse Random Parameter Adaptation [7.479026959617763]
アライメントとタスク適応のための大規模言語モデルの完全な微調整は、モデルのサイズが大きくなるにつれて、極めて高価になっている。
そこで本研究では,これらのモデルの微調整に必要な計算資源とメモリ資源を,モデルパラメータのすべてではなく,少数のパラメータでのみ訓練することで削減する手法を提案する。
PEFT技術がうまく機能することが本当に重要であるのは、必ずしも特定のアダプタ構造ではなく、トレーニング可能なパラメータの数である。
論文 参考訳(メタデータ) (2025-02-21T22:23:16Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。