論文の概要: Parameter-Efficient Fine-Tuning via Selective Discrete Cosine Transform
- arxiv url: http://arxiv.org/abs/2410.09103v1
- Date: Wed, 9 Oct 2024 16:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 16:38:28.650428
- Title: Parameter-Efficient Fine-Tuning via Selective Discrete Cosine Transform
- Title(参考訳): 離散離散コサイン変換によるパラメータ効率の良いファインチューニング
- Authors: Yixian Shen, Qi Bi, Jia-Hong Huang, Hongyi Zhu, Anuj Pathania,
- Abstract要約: 本稿では,このフロンティアを推し進めるために,Selective Discrete Cosine Transformation (SDCTFT) を提案する。
その一般的な考え方は、DCTの優れたエネルギー圧縮とデコリレーション特性を活用することである。
4つのベンチマークデータセットの実験では、より優れた精度、計算コストの削減、ストレージ要求の低減が示されている。
- 参考スコア(独自算出の注目度): 10.565509997395504
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the era of large language models, parameter-efficient fine-tuning (PEFT) has been extensively studied. However, these approaches usually rely on the space domain, which encounters storage challenges especially when handling extensive adaptations or larger models. The frequency domain, in contrast, is more effective in compressing trainable parameters while maintaining the expressive capability. In this paper, we propose a novel Selective Discrete Cosine Transformation (sDCTFT) fine-tuning scheme to push this frontier. Its general idea is to exploit the superior energy compaction and decorrelation properties of DCT to improve both model efficiency and accuracy. Specifically, it projects the weight change from the low-rank adaptation into the discrete cosine space. Then, the weight change is partitioned over different levels of the discrete cosine spectrum, and the most critical frequency components in each partition are selected. Extensive experiments on four benchmark datasets demonstrate the superior accuracy, reduced computational cost, and lower storage requirements of the proposed method over the prior arts. For instance, when performing instruction tuning on the LLaMA3.1-8B model, sDCTFT outperforms LoRA with just 0.05M trainable parameters compared to LoRA's 38.2M, and surpasses FourierFT with 30\% less trainable parameters. The source code will be publicly available.
- Abstract(参考訳): 大規模言語モデルの時代には,パラメータ効率のよい微調整(PEFT)が広く研究されている。
しかしながら、これらのアプローチは、特に広範囲な適応やより大きなモデルを扱う場合、ストレージ上の問題に直面する空間領域に依存している。
対照的に周波数領域は、表現能力を維持しながらトレーニング可能なパラメータを圧縮するのにより効果的である。
本稿では,このフロンティアを推し進めるために,Selective Discrete Cosine Transformation (sDCTFT) のファインチューニング方式を提案する。
その一般的な考え方は、モデル効率と精度の両方を改善するために、DCTの優れたエネルギー圧縮とデコリレーション特性を活用することである。
具体的には、低ランク適応から離散コサイン空間への重み変化を投影する。
次に、離散コサインスペクトルの異なるレベルに重み変化を分割し、各分割における最も臨界周波数成分を選択する。
4つのベンチマークデータセットに対する大規模な実験は、先行技術よりも精度が優れ、計算コストが低減し、提案手法の保存要求が低かったことを示している。
例えば、LLaMA3.1-8Bモデルでインストラクションチューニングを行う場合、sDCTFTはLoRAの38.2Mと比較してわずか0.05Mのトレーニング可能なパラメータで、FourierFTよりも30%少ないトレーニング可能なパラメータでパフォーマンスを向上する。
ソースコードは公開されます。
関連論文リスト
- CoSA: Compressed Sensing-Based Adaptation of Large Language Models [21.688889188355645]
CoSA(Compressed Sensing-Based Adaptation)は、圧縮センシング理論から拡張された新しいPEFT法である。
我々は、CoSAが効率的かつ表現力のあるマルチスケールモデル適応のための原則的な視点を提供することを示す。
我々は,RoBERTa,Llama,Qwenファミリーと異なるスケールの5つのモデルを用いて,自然言語理解・生成を含む10種類のタスクでCoSAを評価した。
論文 参考訳(メタデータ) (2026-02-05T00:11:43Z) - High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - TuckA: Hierarchical Compact Tensor Experts for Efficient Fine-Tuning [83.93651411533533]
4つのキー特性を持つTucker Adaptation(TuckA)を導入する。
我々は,ルータのパラメータサイズを$L$の係数で削減する,効率的なバッチレベルルーティング機構を開発した。
自然言語理解、画像分類、数学的推論におけるベンチマーク実験は、TuckAの有効性を物語っている。
論文 参考訳(メタデータ) (2025-11-10T09:03:16Z) - MISCGrasp: Leveraging Multiple Integrated Scales and Contrastive Learning for Enhanced Volumetric Grasping [15.127239823566194]
MISCGraspは,マルチスケール特徴抽出とコントラスト特徴強調を統合した容積把握方式である。
本稿では,Insight Transformer による高次特徴と低次特徴の問合せに基づく対話を提案し,Empower Transformer は高次特徴に選択的に対応している。
シミュレーションおよび実世界の環境における実験により、MISCGraspはテーブルトップデクラッタリングタスクにおいて、ベースラインおよび変種メソッドよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-07-03T14:36:45Z) - Singular Value Decomposition on Kronecker Adaptation for Large Language Model [0.8747606955991707]
大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。
完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。
我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
論文 参考訳(メタデータ) (2025-06-18T08:28:53Z) - MaCP: Minimal yet Mighty Adaptation via Hierarchical Cosine Projection [10.300935899853748]
MaCP(Minimum yet Mighty Adaptive Cosine Projection)は、最小パラメータとメモリを必要としながら、例外的な性能を達成する。
既存の代替システムに比べて高い精度、計算量を大幅に削減し、メモリ要件を低くする。
論文 参考訳(メタデータ) (2025-05-29T10:55:12Z) - Parameter-Efficient Fine-Tuning with Column Space Projection [4.379304291229695]
そこで我々は,微調整重みのスペクトル特性に基づくPEFT法として初めて理論的に確立されたPiCaを提案する。
従来のPEFT法と比較して,PiCaは最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-26T16:52:40Z) - Parameter-Efficient Fine-Tuning of Large Language Models via Deconvolution in Subspace [3.7049613588433497]
様々な下流タスクのための微調整大型言語モデル(LLM)が新しいパラダイムとなった。
Low-Rank Adaptation (LoRA)はそのパラメータ効率でよく知られている。
我々は新しい方法を提案する。
効率の良い分解はDCFTと呼ばれ、部分空間のデコンボリューションを介して行われる。
論文 参考訳(メタデータ) (2025-03-03T11:15:50Z) - SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。
提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文 参考訳(メタデータ) (2025-02-10T13:06:56Z) - LoCA: Location-Aware Cosine Adaptation for Parameter-Efficient Fine-Tuning [47.77830360814755]
位置認識コサイン適応(LoCA)は離散逆コサイン変換(iDCT)に基づく新しい周波数領域パラメーター効率微調整法である
分析の結果,周波数領域の分解が従来の低ランク手法の表現率を上回ることが判明した。
多様な言語および視覚的微調整タスクの実験は、LoCAが低ランク法に匹敵する計算能力を維持しながら、パラメータ効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-05T04:14:34Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文 参考訳(メタデータ) (2024-09-17T06:51:59Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Parameter-Efficient Fine-Tuning with Discrete Fourier Transform [26.563344030824414]
ローランク適応(LoRA)は近年、微調整基礎モデルに多くの関心を集めている。
デルタW$を空間領域の行列として扱い、そのスペクトル係数のごく一部しか学習しないフーリエFTを導入する。
提案手法は,様々なタスクにおいてLoRAよりも少ないパラメータで同等あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-05T17:15:24Z) - CWF: Consolidating Weak Features in High-quality Mesh Simplification [50.634070540791555]
これらの要件をすべて同時に検討するスムーズな機能を提案する。
この官能基は、通常の異方性項と、セトロイド型ボロノイテッセルレーション(CVT)エネルギー項を含む。
論文 参考訳(メタデータ) (2024-04-24T05:37:17Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。