論文の概要: Block Circulant Adapter for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.00582v1
- Date: Thu, 01 May 2025 15:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.346327
- Title: Block Circulant Adapter for Large Language Models
- Title(参考訳): 大規模言語モデルに対するブロック循環型適応器
- Authors: Xinyu Ding, Meiqi Wang, Siyu Liao, Zhongfeng Wang,
- Abstract要約: 大規模言語モデル (LLM) の調整は, モデルサイズが大きいため困難である。
最近のフーリエ領域に基づく手法は、微調整コストを削減する可能性を示している。
本研究では, 循環行列の特性を活用するために, 安定トレーニングを施したブロック循環行列微調整法を提案する。
- 参考スコア(独自算出の注目度): 10.353352027807272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) is difficult due to their huge model size. Recent Fourier domain-based methods show potential for reducing fine-tuning costs. We propose a block circulant matrix-based fine-tuning method with a stable training heuristic to leverage the properties of circulant matrices and one-dimensional Fourier transforms to reduce storage and computation costs. Experiments show that our method uses $14\times$ less number of parameters than VeRA, $16\times$ smaller than LoRA and $32\times$ less FLOPs than FourierFT, while maintaining close or better task performance. Our approach presents a promising way in frequency domain to fine-tune large models on downstream tasks.
- Abstract(参考訳): 大規模言語モデル (LLM) の調整は, モデルサイズが大きいため困難である。
最近のフーリエ領域に基づく手法は、微調整コストを削減する可能性を示している。
本研究では, 循環行列と1次元フーリエ変換の特性を活用し, 保存・計算コストを削減するための安定なトレーニングヒューリスティックを用いたブロック循環行列を用いた微調整法を提案する。
実験の結果,VeRAよりも14ドル,LoRAより16ドル,FourierFTより32ドル,FourierFTよりFLOPの方が小さい。
我々の手法は、下流タスクで大きなモデルを微調整するための周波数領域において有望な方法を示す。
関連論文リスト
- Parameter-Efficient Fine-Tuning with Circulant and Diagonal Vectors [8.351342832510262]
本稿では, インターリーブ循環および対角行列の積による因子分解による複雑性のさらなる低減を提案する。
提案手法は,浮動小数点演算(FLOP)やトレーニング可能なパラメータの数が少なく,様々なタスクにまたがる類似あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2025-05-01T15:11:46Z) - Sparse Matrix in Large Language Model Fine-tuning [1.9874264019909988]
本稿では,PEFTとフル微調整性能の差を最小限に抑えるために,スパースサブ行列を選択する手法を提案する。
実験では,本手法が他のPEFTベースラインを一貫して上回ることを示した。
また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向を示す。
論文 参考訳(メタデータ) (2024-05-24T13:12:14Z) - Parameter-Efficient Fine-Tuning with Discrete Fourier Transform [26.563344030824414]
ローランク適応(LoRA)は近年、微調整基礎モデルに多くの関心を集めている。
デルタW$を空間領域の行列として扱い、そのスペクトル係数のごく一部しか学習しないフーリエFTを導入する。
提案手法は,様々なタスクにおいてLoRAよりも少ないパラメータで同等あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-05T17:15:24Z) - ReFT: Representation Finetuning for Language Models [74.51093640257892]
我々はRepresentation Finetuning(ReFT)手法のファミリーを開発する。
ReFTはフリーズベースモデルで動作し、隠れた表現に対するタスク固有の介入を学ぶ。
我々は,8つの常識推論タスク,4つの算術推論タスク,命令チューニング,GLUEについてLoReFTを紹介する。
論文 参考訳(メタデータ) (2024-04-04T17:00:37Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Integrated Variational Fourier Features for Fast Spatial Modelling with Gaussian Processes [7.5991638205413325]
トレーニングポイントが$N$の場合、正確な推論は$O(N3)$コストを持ち、$M ll N$機能により、アートスパース変分メソッドの状態は$O(NM2)$コストを持つ。
近年、空間モデリングのような低次元タスクにおいて優れた性能を持つ$O(M3)$コストを約束する手法が提案されているが、最もよく使われるカーネルを除いて、非常に限られた種類のカーネルでしか動作しない。
本稿では,Fourier機能の統合について提案する。これは,これらのパフォーマンスのメリットを,より広範な定常的コのクラスに拡張するものである。
論文 参考訳(メタデータ) (2023-08-27T15:44:28Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Does Continual Learning Equally Forget All Parameters? [55.431048995662714]
連続学習(CL)における分散シフト(タスクやドメインシフトなど)は通常、ニューラルネットワークを壊滅的に忘れてしまう。
ニューラルネットワークのどのモジュールが、CL中のトレーニングダイナミクスを調査することによって忘れやすいかを検討する。
CL中に周期的にトリガされるFPFの1段階ごとのリプレイを完全に取り除き,わずか$k$で置き換える,より効率的でシンプルな手法を提案する。
論文 参考訳(メタデータ) (2023-04-09T04:36:24Z) - Learning Decorrelated Representations Efficiently Using Fast Fourier
Transform [3.932322649674071]
高速フーリエ変換によりO(n d log d)時間で計算できる緩和された非相関正規化器を提案する。
提案した正則化器は、ダウンストリームタスクにおける既存の正則化器に匹敵する精度を示す。
論文 参考訳(メタデータ) (2023-01-04T12:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。