論文の概要: SSH: Sparse Spectrum Adaptation via Discrete Hartley Transformation
- arxiv url: http://arxiv.org/abs/2502.05539v1
- Date: Sat, 08 Feb 2025 12:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:11.991039
- Title: SSH: Sparse Spectrum Adaptation via Discrete Hartley Transformation
- Title(参考訳): SSH:離散ハートレー変換によるスパーススペクトル適応
- Authors: Yixian Shen, Qi Bi, Jia-Hong Huang, Hongyi Zhu, Andy D. Pimentel, Anuj Pathania,
- Abstract要約: 低ランク適応(LoRA)は,大規模基礎モデル(LLM)の微調整において,トレーニング可能なパラメータ数を削減できることが実証されている。
本稿では,SSH(Sparse Spectrum Adaptation via Discrete Hartley Transformation)を提案する。
SSHは、計算コストとメモリ要求を大幅に削減しながら、既存のパラメータ効率の微調整法(PEFT)よりも優れている。
- 参考スコア(独自算出の注目度): 10.300935899853748
- License:
- Abstract: Low-rank adaptation (LoRA) has been demonstrated effective in reducing the trainable parameter number when fine-tuning a large foundation model (LLM). However, it still encounters computational and memory challenges when scaling to larger models or addressing more complex task adaptation. In this work, we introduce Sparse Spectrum Adaptation via Discrete Hartley Transformation (SSH), a novel approach that significantly reduces the number of trainable parameters while enhancing model performance. It selects the most informative spectral components across all layers, under the guidance of the initial weights after a discrete Hartley transformation (DHT). The lightweight inverse DHT then projects the spectrum back into the spatial domain for updates. Extensive experiments across both single-modality tasks such as language understanding and generation and multi-modality tasks such as video-text understanding demonstrate that SSH outperforms existing parameter-efficient fine-tuning (PEFT) methods while achieving substantial reductions in computational cost and memory requirements.
- Abstract(参考訳): 低ランク適応 (LoRA) は, 大規模基礎モデル (LLM) を微調整する際に, トレーニング可能なパラメータ数を削減できることが実証されている。
しかし、より大きなモデルにスケールしたり、より複雑なタスク適応に対処する場合、計算とメモリの課題に直面する。
本稿では,SSH(Sparse Spectrum Adaptation via Discrete Hartley Transformation)を提案する。
離散ハートレー変換(DHT)後の初期重みのガイダンスの下で、全ての層で最も情報性の高いスペクトル成分を選択する。
軽量逆DHTは、更新のためにスペクトルを空間領域に投影する。
言語理解と生成のような単一モダリティタスクとビデオテキスト理解のようなマルチモダリティタスクの両方にわたる広範囲な実験は、SSHが計算コストとメモリ要求を大幅に削減しつつ、既存のパラメータ効率の微調整(PEFT)手法より優れていることを示した。
関連論文リスト
- SHARP: Accelerating Language Model Inference by SHaring Adjacent layers with Recovery Parameters [42.76641078823487]
大規模言語モデル(LLM)は、高度な自然言語処理タスクを持ち、その増大する計算とメモリ要求は、携帯電話のようなリソースに制約のあるデバイスへのデプロイをますます困難にしている。
本稿では,SHARP(S Haring Adjacent Layers with Recovery Parameters)を提案する。SHARP(S Haring Adjacent Layers with Recovery Parameters)は,LLM推論を高速化する手法で,隣接層間でパラメータを共有することでメモリ負荷を低減し,低ランク回復パラメータを導入して性能を向上する。
論文 参考訳(メタデータ) (2025-02-11T00:21:40Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation [7.788139145984213]
低ランク適応(LoRA)は、ファインチューン大言語モデル(LLM)のデフォルトのアプローチとなっている。
我々はスペクトル分解低次元適応(LaMDA)による大型モデル微調整を導入する。
LaMDAはトレーニング可能なパラメータとピークGPUメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-06-18T17:52:59Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。