論文の概要: Parameter-Efficient Fine-Tuning with Circulant and Diagonal Vectors
- arxiv url: http://arxiv.org/abs/2505.00580v1
- Date: Thu, 01 May 2025 15:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.345504
- Title: Parameter-Efficient Fine-Tuning with Circulant and Diagonal Vectors
- Title(参考訳): 循環ベクトルと対角ベクトルを用いたパラメータ効率の良いファインチューニング
- Authors: Xinyu Ding, Lexuan Chen, Siyu Liao, Zhongfeng Wang,
- Abstract要約: 本稿では, インターリーブ循環および対角行列の積による因子分解による複雑性のさらなる低減を提案する。
提案手法は,浮動小数点演算(FLOP)やトレーニング可能なパラメータの数が少なく,様々なタスクにまたがる類似あるいは優れた性能を実現する。
- 参考スコア(独自算出の注目度): 8.351342832510262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have achieved tremendous success in different domains. However, their huge computation and storage complexity make these models difficult to fine-tune and also less applicable in practice. Recent study shows training in Fourier domain can be an effective fine-tuning method in terms of both model performance and number of training parameters. In this work, we propose to further reduce the complexity by the factorization through the product of interleaved circulant and diagonal matrices. In addition, we address the case of non-square fine-tuning weights by partitioning the circulant matrix into blocks. Our method avoids the construction of weight change matrix and utilizes 1D fast Fourier transform (FFT) instead of 2D FFT. Experimental results show that our method achieves similar or better performance across various tasks with much less floating-point operations (FLOPs) and the number of trainable parameters.
- Abstract(参考訳): ファンデーションモデルは、異なるドメインで大きな成功を収めました。
しかし、その巨大な計算とストレージの複雑さにより、これらのモデルは微調整が難しく、実際は適用できない。
近年の研究では、モデル性能とトレーニングパラメータ数の両面で、フーリエ領域でのトレーニングが効果的な微調整法であることが示されている。
本研究では, インターリーブ循環および対角行列の積による因子分解により, 複雑さをさらに軽減することを提案する。
さらに、循環行列をブロックに分割することで、非二乗微調整重みの場合に対処する。
本手法では,2次元FFTの代わりに1次元高速フーリエ変換(FFT)を用いる。
実験の結果,本手法は浮動小数点演算(FLOP)とトレーニング可能なパラメータの数を大幅に減らして,様々なタスクにまたがる類似あるいは優れた性能を実現することがわかった。
関連論文リスト
- Block Circulant Adapter for Large Language Models [10.353352027807272]
大規模言語モデル (LLM) の調整は, モデルサイズが大きいため困難である。
最近のフーリエ領域に基づく手法は、微調整コストを削減する可能性を示している。
本研究では, 循環行列の特性を活用するために, 安定トレーニングを施したブロック循環行列微調整法を提案する。
論文 参考訳(メタデータ) (2025-05-01T15:14:32Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。
各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。
遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文 参考訳(メタデータ) (2024-12-17T01:12:35Z) - Sampling Foundational Transformer: A Theoretical Perspective [12.7600763629179]
本稿では,複数のデータモダリティを扱える基本サンプリング変換器(SFT)を提案する。
SFTは多くのベンチマークで競合する結果を得たが、他の非常に特殊なモデルに比べて推論が速い。
論文 参考訳(メタデータ) (2024-08-11T16:53:09Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [102.92240148504774]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。
優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。
我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文 参考訳(メタデータ) (2023-11-10T18:59:54Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - Large-Scale Learning with Fourier Features and Tensor Decompositions [3.6930948691311007]
決定論的フーリエ特徴のテンソル積構造を利用して、モデルパラメータを低ランクテンソル分解として表現することができる。
数値実験により、我々の低ランクテンソル法が対応する非パラメトリックモデルと同じ性能を得ることを示す。
論文 参考訳(メタデータ) (2021-09-03T14:12:53Z) - Hybrid Trilinear and Bilinear Programming for Aligning Partially
Overlapping Point Sets [85.71360365315128]
多くの応用において、部分重なり合う点集合が対応するRPMアルゴリズムに不変であるようなアルゴリズムが必要である。
まず、目的が立方体有界関数であることを示し、次に、三線型および双線型単相変換の凸エンベロープを用いて、その下界を導出する。
次に、変換変数上の分岐のみを効率よく実行するブランチ・アンド・バウンド(BnB)アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-01-19T04:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。