論文の概要: The Scaling Law for LoRA Base on Mutual Information Upper Bound
- arxiv url: http://arxiv.org/abs/2501.03152v1
- Date: Mon, 06 Jan 2025 17:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:36.104683
- Title: The Scaling Law for LoRA Base on Mutual Information Upper Bound
- Title(参考訳): 相互情報アッパーバウンドに基づく LoRA ベーススケーリング法
- Authors: Jing Zhang, Hui Gao, Peng Zhang, Shuzhen Sun, Chang Yang, Yuexian Hou,
- Abstract要約: 微調整では、モデル性能、モデルパラメータ、データ複雑性の法則がこの分野において問題となっている。
そこで我々は,Mutual Information Upper Bound (MIUB) 理論に基づく内部メトリクスを提案し,大規模モデルLORAファインタニングのスケーリング法則について検討する。
提案したMIUB測度は、クロスエントロピーやパープレキシティと比較して、ロラ微調整のスケーリング法則とより正確かつ安定に一致している。
- 参考スコア(独自算出の注目度): 16.527968425791393
- License:
- Abstract: LoRA (Low-Rank Adaptation) is a widely used model fine-tuning method. In fine-tuning, the law among model performance, model parameters, and data complexity has been a focal issue in the field. Existing methods often leverage external metrics (such as cross-entropy or perplexity) to evaluate model performance. In the fine-tuning process for large models, two types of knowledge are typically involved: the frozen, general knowledge acquired by the model during pre-training and the new knowledge learned through the LoRA module from the current data. Generally, the less LoRA's learned knowledge relies on the large model, the more it captures the specific knowledge of new data, thereby enhancing its adaptability to new tasks. However, external metrics do not readily capture the dependency relationship between these two types of knowledge. Therefore, we designed an internal metric based on the Mutual Information Upper Bound (MIUB) theory to investigate the scaling law of large-model LoRA fine-tuning. In our experiments, we validated this approach on benchmark datasets, using the Llama3-8B and Phi3-3B models. The results show that the proposed MIUB metric aligns more accurately and stably with the scaling law of LoRA fine-tuning compared to cross-entropy and perplexity.
- Abstract(参考訳): LoRA (Low-Rank Adaptation) は、広く使われているモデル微調整法である。
微調整では、モデル性能、モデルパラメータ、データ複雑性の法則がこの分野において問題となっている。
既存の手法では、モデルの性能を評価するために外部メトリクス(クロスエントロピーやパープレキシティなど)を利用することが多い。
大規模モデルの微調整プロセスでは、一般的に2種類の知識が関与する: 事前訓練中にモデルによって得られた凍結した一般的な知識と、現在のデータからLoRAモジュールを通して学習された新しい知識である。
一般的に、LoRAの学習知識は、大きなモデルに依存しないほど、新しいデータの特定の知識をキャプチャし、新しいタスクへの適応性を高める。
しかし、外部メトリクスは、これらの2つのタイプの知識間の依存関係関係を簡単に捉えない。
そこで我々は,Mutual Information Upper Bound (MIUB) 理論に基づく内部メトリックを設計し,大規模モデルLORAファインタニングのスケーリング法則について検討した。
実験では,Llama3-8BモデルとPhi3-3Bモデルを用いて,この手法をベンチマークデータセット上で検証した。
提案したMIUB測度は, クロスエントロピーやパープレキシティと比較して, LoRAファインチューニングのスケーリング法則とより正確かつ安定に一致していることを示す。
関連論文リスト
- Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Deep Explainable Learning with Graph Based Data Assessing and Rule
Reasoning [4.369058206183195]
本稿では、ノイズハンドリングにおけるディープモデルの利点とエキスパートルールに基づく解釈可能性を組み合わせたエンドツーエンドのディープ・ツー・エンドのディープ・説明可能な学習手法を提案する。
提案手法は, 工業生産システムにおいて, 予測精度に匹敵し, より高い一般化安定性, より優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2022-11-09T05:58:56Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。