論文の概要: Hydra: Multi-head Low-rank Adaptation for Parameter Efficient
Fine-tuning
- arxiv url: http://arxiv.org/abs/2309.06922v1
- Date: Wed, 13 Sep 2023 12:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:19:49.676790
- Title: Hydra: Multi-head Low-rank Adaptation for Parameter Efficient
Fine-tuning
- Title(参考訳): Hydra:パラメータ効率的な微調整のためのマルチヘッド低ランク適応
- Authors: Sanghyeon Kim, Hyunmo Yang, Younghyun Kim, Youngjoon Hong, and
Eunbyung Park
- Abstract要約: LoRAのような低ランク適応法は、パラメータ効率が優れており、追加の推論遅延がないため、大きな注目を集めている。
本稿では、並列および逐次適応分岐が微調整中に新しい特徴と一般的な特徴を学習する解析に基づいて、より一般的なアダプタモジュールについて検討する。
提案手法はHydraと呼ばれ,並列分岐とシーケンシャル分岐を組み合わせて,既存の単一分岐法よりも表現力が高い機能を統合する。
- 参考スコア(独自算出の注目度): 6.715658563685112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent surge in large-scale foundation models has spurred the development
of efficient methods for adapting these models to various downstream tasks.
Low-rank adaptation methods, such as LoRA, have gained significant attention
due to their outstanding parameter efficiency and no additional inference
latency. This paper investigates a more general form of adapter module based on
the analysis that parallel and sequential adaptation branches learn novel and
general features during fine-tuning, respectively. The proposed method, named
Hydra, due to its multi-head computational branches, combines parallel and
sequential branch to integrate capabilities, which is more expressive than
existing single branch methods and enables the exploration of a broader range
of optimal points in the fine-tuning process. In addition, the proposed
adaptation method explicitly leverages the pre-trained weights by performing a
linear combination of the pre-trained features. It allows the learned features
to have better generalization performance across diverse downstream tasks.
Furthermore, we perform a comprehensive analysis of the characteristics of each
adaptation branch with empirical evidence. Through an extensive range of
experiments, encompassing comparisons and ablation studies, we substantiate the
efficiency and demonstrate the superior performance of Hydra. This
comprehensive evaluation underscores the potential impact and effectiveness of
Hydra in a variety of applications. Our code is available on
\url{https://github.com/extremebird/Hydra}
- Abstract(参考訳): 最近の大規模基礎モデルの増加は、これらのモデルを様々な下流タスクに適応させるための効率的な手法の開発を促した。
LoRAのような低ランク適応法は、パラメータ効率が優れており、追加の推論遅延がないために注目されている。
本稿では,並列適応分岐と逐次適応分岐がファインチューニング中にそれぞれ新しい特徴と一般的な特徴を学習する解析に基づいて,より一般的なアダプタモジュールについて検討する。
提案手法はHydraという名前で,並列分岐とシーケンシャル分岐を組み合わせることで,既存の単一分岐法よりも表現力が高く,微調整プロセスにおける幅広い最適点の探索を可能にする。
さらに,提案手法では,事前学習した特徴を線形に組み合わせることで,事前学習した重みを明示的に活用する。
これにより、学習した機能は、さまざまな下流タスク間でより良い一般化性能を得ることができる。
さらに,各適応分岐の特性を実証的証拠を用いて包括的に解析する。
比較とアブレーションの研究を包含する幅広い実験を通じて,その効率を実証し,hydraの優れた性能を示す。
この総合的な評価は、さまざまなアプリケーションにおけるhydraの潜在的影響と有効性の基礎となる。
私たちのコードは \url{https://github.com/extremebird/Hydra} で利用可能です。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models [90.24999406296867]
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-14T07:56:32Z) - Adaptively Customizing Activation Functions for Various Layers [10.522556291990437]
本研究では、Sigmoid、Tanh、ReLUといった従来のアクティベーション関数にごく少数のパラメータを追加するだけで、アクティベーション関数を適応的にカスタマイズする新しい手法を提案する。
提案手法の有効性を検証するため, 収束の促進と性能向上に関する理論的, 実験的検討を行った。
その結果、提案手法は非常に単純であるが、収束速度、精度、一般化において大きな性能を有しており、ReLUやSwishのような適応関数といった他の一般的な手法を、全体的な性能の観点からほぼ全ての実験で上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-17T11:23:03Z) - What Makes an Effective Scalarising Function for Multi-Objective
Bayesian Optimisation? [6.4239565988811425]
目的のスケール化による多対象ベイズ最適化は、高価な積分ベースの獲得関数の計算を避ける。
ここで定義されるすべての方法論的改善の有効性は、実世界の問題で実証される。
論文 参考訳(メタデータ) (2021-04-10T15:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。