論文の概要: ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models
- arxiv url: http://arxiv.org/abs/2505.14238v3
- Date: Thu, 02 Oct 2025 16:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 19:26:07.829724
- Title: ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models
- Title(参考訳): ABBAアダプタ:基礎モデルの効率的かつ表現力豊かな微調整
- Authors: Raghav Singhal, Kaustubh Ponkshe, Rohit Vartak, Praneeth Vepakomma,
- Abstract要約: 大規模な言語モデルは、幅広いタスクにわたって強力なパフォーマンスを示してきましたが、それらを新しいドメインに効率的に適用することは、依然として重要な課題です。
ABBAは、独立に学習可能な2つの低ランク行列のアダマール積として更新を再パラメータ化する新しいPEFTアーキテクチャである。
以前の作業とは対照的に、ABBAは事前訓練された重量からアップデートを完全に切り離し、両方のコンポーネントを自由に最適化できる。
- 参考スコア(独自算出の注目度): 10.17362679822278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have demonstrated strong performance across a wide range of tasks, but adapting them efficiently to new domains remains a key challenge. Parameter-Efficient Fine-Tuning (PEFT) methods address this by introducing lightweight, trainable modules while keeping most pre-trained weights fixed. The prevailing approach, LoRA, models updates using a low-rank decomposition, but its expressivity is inherently constrained by the rank. Recent methods like HiRA aim to increase expressivity by incorporating a Hadamard product with the frozen weights, but still rely on the structure of the pre-trained model. We introduce ABBA, a new PEFT architecture that reparameterizes the update as a Hadamard product of two independently learnable low-rank matrices. In contrast to prior work, ABBA fully decouples the update from the pre-trained weights, enabling both components to be optimized freely. This leads to significantly higher expressivity under the same parameter budget, a property we validate through matrix reconstruction experiments. Empirically, ABBA achieves state-of-the-art results on arithmetic and commonsense reasoning benchmarks, consistently outperforming existing PEFT methods by a significant margin across multiple models. Our code is publicly available at: https://github.com/CERT-Lab/abba.
- Abstract(参考訳): 大規模な言語モデルは、幅広いタスクにわたって強力なパフォーマンスを示してきましたが、それらを新しいドメインに効率的に適用することは、依然として重要な課題です。
パラメータ効率の良いファインチューニング(PEFT)手法は、軽量でトレーニング可能なモジュールを導入し、ほとんどのトレーニング済み重量を固定する。
一般的なアプローチであるLoRAは、低ランク分解を用いて更新をモデル化するが、その表現性は本質的にランクによって制約される。
HiRAのような最近の手法は、凍結重量のアダマール生成物を組み込むことで、発現率を高めることを目的としているが、それでも事前訓練されたモデルの構造に依存している。
独立に学習可能な2つの低ランク行列のアダマール積として更新を再パラメータ化する新しいPEFTアーキテクチャであるABBAを紹介する。
以前の作業とは対照的に、ABBAは事前訓練された重量からアップデートを完全に切り離し、両方のコンポーネントを自由に最適化できる。
これは、行列再構成実験によって検証した特性である、同じパラメータ予算の下で、非常に高い表現性をもたらす。
ABBAは、算術的および常識的推論ベンチマークにおける最先端の結果を実証的に達成し、既存のPEFT法を複数のモデルで有意差で一貫して上回っている。
私たちのコードは、https://github.com/CERT-Lab/abba.comで公開されています。
関連論文リスト
- DiaBlo: Diagonal Blocks Are Sufficient For Finetuning [5.615105036691153]
選択したモデル重み行列の対角ブロックのみを更新するPEFTアプローチであるDiaBloを提案する。
ローランク適応(LoRA)とその変種とは異なり、ダイアブロはローランク行列生成物の必要性を排除している。
この設計は、LoRAに匹敵するメモリ効率とトレーニング速度を維持しながら、安定かつ堅牢な収束をもたらす。
論文 参考訳(メタデータ) (2025-06-03T13:47:59Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation [13.585425242072173]
最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。
活性化のミニバッチ上での特異値分解(SVD)を計算し,データ駆動方式で新たな重み付けを初期化することによりLoRAを改善することを提案する。
新しいメソッドを $textbfE$xplained $textbfV$ariance $textbfA$daptation (EVA) と呼びます。
論文 参考訳(メタデータ) (2024-10-09T17:59:06Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前学習モデルは、しばしば最先端のパフォーマンスをもたらすが、全てのパラメータを更新する際に計算コストがかかる。
本稿では,軽量ニューラルネットワークを用いた非線形PEFT手法NEATを提案し,事前学習した重みの非線形変換を学習する。
理論解析により, NEATは等価な表現性を維持しつつ, LoRA よりも高い効率を達成することが示された。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。
SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。
本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-07-07T15:37:13Z) - RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning [36.32145845869823]
事前学習された言語モデルは、様々なNLPタスクにまたがる強力な一般化性を示す。
特定のタスクのためにこれらのモデルを微調整するには、通常、リソース集約的な全てのパラメータを更新する必要がある。
我々は,textbfrowとctextbfolumn-wise spartextbfse textbflow-textbfrank textbfadaptation (RoseLoRA)を実行する新しいPEFT法を提案する。
RoseLoRAは、特定のタスクの最も重要なパラメータのみを特定し、更新し、効率を維持する
論文 参考訳(メタデータ) (2024-06-16T02:08:49Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - ReFT: Representation Finetuning for Language Models [74.51093640257892]
我々はRepresentation Finetuning(ReFT)手法のファミリーを開発する。
ReFTはフリーズベースモデルで動作し、隠れた表現に対するタスク固有の介入を学ぶ。
我々は,8つの常識推論タスク,4つの算術推論タスク,命令チューニング,GLUEについてLoReFTを紹介する。
論文 参考訳(メタデータ) (2024-04-04T17:00:37Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。