論文の概要: Bridging The Gap between Low-rank and Orthogonal Adaptation via Householder Reflection Adaptation
- arxiv url: http://arxiv.org/abs/2405.17484v2
- Date: Tue, 15 Oct 2024 14:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:09.365636
- Title: Bridging The Gap between Low-rank and Orthogonal Adaptation via Householder Reflection Adaptation
- Title(参考訳): 家庭内リフレクション適応による低位と直交順応のギャップを埋める
- Authors: Shen Yuan, Haotian Liu, Hongteng Xu,
- Abstract要約: 家庭内リフレクション適応法 (HRA) は, 家庭内リフレクションに基づく簡易かつ効果的な適応法である。
HRAは、大きな言語モデルと条件付き画像生成装置を適用する際に、学習可能なパラメータが少なくて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 32.371755315509574
- License:
- Abstract: While following different technical routes, both low-rank and orthogonal adaptation techniques can efficiently adapt large-scale pre-training models in specific tasks or domains based on a small piece of trainable parameters. In this study, we bridge the gap between these two techniques, proposing a simple but effective adaptation method based on Householder reflections. Given a pre-trained model, our method fine-tunes its layers by multiplying each frozen weight matrix with an orthogonal matrix constructed by a chain of learnable Householder reflections (HRs). This HR-based orthogonal fine-tuning is equivalent to an adaptive low-rank adaptation. Moreover, we show that the orthogonality of the reflection planes corresponding to the HRs impacts the model capacity and regularity. The analysis motivates us to regularize the orthogonality of the HRs, leading to different implementations of the proposed Householder reflection adaptation (HRA) method. Compared with state-of-the-art methods, HRA achieves superior performance with fewer learnable parameters when adapting large language models and conditional image generators. The code of the experiments is available at \url{https://github.com/DaShenZi721/HRA}, and the method has been merged into the \href{https://github.com/huggingface/peft}{PEFT} package.
- Abstract(参考訳): 異なる技術ルートに従う一方で、低ランクと直交の双方の手法は、訓練可能なパラメータの小さな部分に基づいて、特定のタスクやドメインで大規模な事前学習モデルを効率的に適用することができる。
本研究では,この2つの技法のギャップを橋渡しし,家庭内リフレクションに基づく簡易かつ効果的な適応手法を提案する。
本手法は, 学習可能な家庭用リフレクション(HR)の連鎖によって構築された直交行列を用いて, 各冷凍重量行列を乗算することにより, その層を微調整する。
このHRに基づく直交微調整は適応的な低ランク適応と等価である。
さらに、HRに対応する反射面の直交性がモデル容量と正則性に影響を及ぼすことを示す。
この分析は、HRの直交性を規則化する動機となり、提案手法の異なる実装に繋がる。
最先端の手法と比較して、HRAは、大きな言語モデルや条件付き画像生成装置を適用する際に、学習可能なパラメータが少なく、優れた性能を達成する。
実験のコードは \url{https://github.com/DaShenZi721/HRA} で利用可能であり、このメソッドは \href{https://github.com/huggingface/peft}{PEFT} パッケージにマージされている。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models [73.88009808326387]
生成モデルのための新しいスペクトル対応適応フレームワークを提案する。
本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。
本稿では,計算効率と表現能力のバランスをとるスペクトルオーソ分解適応(SODA)を提案する。
論文 参考訳(メタデータ) (2024-05-31T17:43:35Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Interpretable Ensembles of Hyper-Rectangles as Base Models [5.482532589225552]
ベースモデル(HRBM)として一様に生成された軸並列超矩形を持つアンサンブルモデルを提案する。
勾配昇降機(GBM)にHRBMを組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-03-15T13:50:36Z) - Orthogonal SVD Covariance Conditioning and Latent Disentanglement [65.67315418971688]
SVDメタ層をニューラルネットワークに挿入すると、共分散が不調和になる。
我々は最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-12-11T20:31:31Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Parameter-efficient Model Adaptation for Vision Transformers [45.3460867776953]
画像分類タスクにおける視覚変換器のパラメータ効率モデル適応戦略について検討する。
本稿では,局所固有次元を測定することで,まずサブモジュールを選択するパラメータ効率のよいモデル適応フレームワークを提案する。
提案手法は,20画像分類データセット間の精度とパラメータ効率のトレードオフを最良とする。
論文 参考訳(メタデータ) (2022-03-29T05:30:09Z) - Adapting by Pruning: A Case Study on BERT [9.963251767416967]
対象タスクの性能を最適化するために,事前学習したモデルの神経接続をpruneするプラニングにより適応する新しいモデル適応パラダイムを提案する。
本稿では, 最適化問題として適応分割法を定式化し, モデル作成のための効率的なアルゴリズムを提案する。
以上の結果から,提案手法は細調整フルモデルと同等の性能を示しながら,BERTの最大50%の重み付けが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-05-07T15:51:08Z) - AI-SARAH: Adaptive and Implicit Stochastic Recursive Gradient Methods [7.486132958737807]
適応性に対する暗黙的アプローチによる適応分散低減手法を提案する。
有限サム最小化問題に対する収束保証を提供し,局所幾何が許せばサラよりも高速に収束できることを示す。
このアルゴリズムはステップサイズを暗黙的に計算し、関数の局所リプシッツ滑らかさを効率的に推定する。
論文 参考訳(メタデータ) (2021-02-19T01:17:15Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。