論文の概要: AdaRank: Disagreement Based Module Rank Prediction for Low-rank Adaptation
- arxiv url: http://arxiv.org/abs/2408.09015v1
- Date: Fri, 16 Aug 2024 20:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:06:45.880256
- Title: AdaRank: Disagreement Based Module Rank Prediction for Low-rank Adaptation
- Title(参考訳): AdaRank: 低ランク適応のための診断に基づくモジュールランク予測
- Authors: Yihe Dong,
- Abstract要約: モデル不一致に基づく手法を開発し、与えられたモジュールのランクを他のモジュールと比較して予測する。
AdaRankは、同じ数のパラメータを持つ均一なランクを使用するよりも、目に見えないデータに対して顕著に優れている。
- 参考スコア(独自算出の注目度): 7.832189413179361
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rise of language and multimodal models of ever-increasing size, pretraining a general-purpose foundational model and adapting it to downstream tasks has become common practice. To this end, adaptation efficiency can be a critical bottleneck given the large model sizes, hence efficient finetuning methods such as LoRA have become prevalent. However, LoRA is typically applied with the same rank across all model layers, despite mounting evidence from transfer learning literature that during finetuning, later layers diverge more from pretrained weights. Inspired by the theory and observations around feature learning and module criticality, we develop a simple model disagreement based technique to predict the rank of a given module relative to the other modules. Empirically, AdaRank generalizes notably better on unseen data than using uniform ranks with the same number of parameters. Compared to prior work, AdaRank has the unique advantage of leaving the pretraining and adaptation stages completely intact: no need for any additional objectives or regularizers, which can hinder adaptation accuracy and performance. Our code is publicly available at https://github.com/google-research/google-research/tree/master/adaptive_low_rank.
- Abstract(参考訳): 言語モデルやマルチモーダルモデルの増大に伴い、汎用基礎モデルの事前学習や下流タスクへの適応が一般的になっている。
この目的のために、モデルのサイズが大きいため、適応効率は重要なボトルネックとなりうるため、LoRAのような効率的な微調整法が普及している。
しかしながら、LoRAは通常すべてのモデル層で同じランクで適用されるが、転写学習の文献では、微調整の間、後続の層は事前訓練された重みからより多様になるという証拠が盛り込まれている。
特徴学習とモジュール臨界性に関する理論と観測から着想を得て, 与えられたモジュールのランクを他のモジュールと比較して予測する単純なモデル不一致に基づく手法を開発した。
経験的に、AdaRankは、同じ数のパラメータを持つ均一なランクを使用するよりも、目に見えないデータに対して顕著に優れている。
以前の作業と比較して、AdaRankは事前訓練と適応段階を完全に無傷で残すというユニークな利点がある。
私たちのコードはhttps://github.com/google-research/google-research/tree/master/adaptive_low_rankで公開されています。
関連論文リスト
- LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。
単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。
イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation [13.585425242072173]
最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。
我々は,活性化のミニバッチ上での特異値分解を計算し,新しい重みをデータ駆動方式で初期化することによりLoRAを強化することを提案する。
EVAを言語生成や理解から画像分類や強化学習まで,さまざまな微調整タスクに適用する。
論文 参考訳(メタデータ) (2024-10-09T17:59:06Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - RankAdaptor: Hierarchical Dynamic Low-Rank Adaptation for Structural Pruned LLMs [3.3424221693424014]
本稿では,階層的動的階数スケジューリングを併用した効率的な微調整手法であるRandAdaptorを紹介する。
RankAdaptorは、異なるプルーニング設定に対して構造的なプルーニングで標準のLoRAを一貫して上回っている。
トレーニング可能なパラメータを増やすことなく、RandAdaptorはプルーンドモデルと元のモデルのリカバリの間の精度パフォーマンスギャップをさらに小さくする。
論文 参考訳(メタデータ) (2024-06-22T04:52:58Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。