論文の概要: Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection
- arxiv url: http://arxiv.org/abs/2410.02330v1
- Date: Thu, 3 Oct 2024 09:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:50:17.219669
- Title: Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection
- Title(参考訳): Llama SLayer 8B: 知識注入の鍵を握る浅層
- Authors: Tianxiang Chen, Zhentao Tan, Tao Gong, Yue Wu, Qi Chu, Bin Liu, Jieping Ye, Nenghai Yu,
- Abstract要約: 知識注入のための最適層範囲の探索における各層の重要性について検討する。
本研究では,浅層を選択的に強化し,有効でない深層を刈り取るための事前学習戦略であるS戦略を提案する。
この戦略に基づき,Llama Slayer-8BとLlama Slayer-8B-Instructを導入する。
- 参考スコア(独自算出の注目度): 73.06596715100859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a manner to augment pre-trained large language models (LLM), knowledge injection is critical to develop vertical domain large models and has been widely studied. Although most current approaches, including parameter-efficient fine-tuning (PEFT) and block expansion methods, uniformly apply knowledge across all LLM layers, it raises the question: are all layers equally crucial for knowledge injection? We begin by evaluating the importance of each layer in finding the optimal layer range for knowledge injection. Intuitively, the more important layers should play a more critical role in knowledge injection and deserve a denser injection. We observe performance dips in question-answering benchmarks after the removal or expansion of the shallow layers, and the degradation shrinks as the layer gets deeper, indicating that the shallow layers hold the key to knowledge injection. This insight leads us to propose the S strategy, a post-pretraining strategy of selectively enhancing shallow layers while pruning the less effective deep ones. Based on this strategy, we introduce Llama Slayer-8B and Llama Slayer-8B-Instruct. We experimented on the corpus of code $\&$ math and demonstrated the effectiveness of our strategy. Further experiments across different LLM, Mistral-7B, and a legal corpus confirmed the general applicability of the approach, underscoring its wide-ranging efficacy. Our code is available at: \https://github.com/txchen-USTC/Llama-Slayer
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)を増強する手段として、知識注入は垂直領域の大規模モデルの開発に不可欠であり、広く研究されている。
パラメータ効率の細かいチューニング(PEFT)やブロック拡張手法を含む現在のアプローチは、全てのLCM層に一様に知識を適用するが、これは疑問を投げかける:全てのレイヤは、知識注入に等しく重要であるか?
まず,各層が知識注入に最適な層範囲を見出すことの重要性を評価する。
直感的には、より重要なレイヤは知識注入においてより重要な役割を果たすべきであり、より密接な注入に値する。
浅層除去・拡張後の質問応答ベンチマークの性能低下を観察し, 浅層が深層化するにつれて劣化が減少し, 浅層が知識注入の鍵を握ることを示す。
この知見は,より有効でない深層を刈り上げつつ,浅い層を選択的に強化するポストプレトレーニング戦略であるS戦略を提案することにつながる。
この戦略に基づき,Llama Slayer-8BとLlama Slayer-8B-Instructを導入する。
コードのコーパスを$$&$で実験し、我々の戦略の有効性を実証した。
異なるLLM、Mistral-7B、および法的なコーパスにわたるさらなる実験により、このアプローチの一般適用性が確認され、その広範囲な有効性を裏付けた。
私たちのコードは以下の通りです。
関連論文リスト
- Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - Investigating Layer Importance in Large Language Models [28.156622049937216]
大規模言語モデル (LLM) は、テキストの理解と処理に際し、注目を集めている。
LLMの理解の欠如は、安全クリティカルなシナリオへの展開を妨げ、より良いモデルの開発を妨げる。
本研究は, LLMの基盤層を同定し, 今後の研究におけるその重要な役割を浮き彫りにする。
論文 参考訳(メタデータ) (2024-09-22T09:53:13Z) - Exploring Concept Depth: How Large Language Models Acquire Knowledge at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。
我々は、より複雑な概念が一般的により深い層で取得されることを示すために、概念深さの概念を紹介します。
論文 参考訳(メタデータ) (2024-04-10T14:56:40Z) - The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
本研究では,オープンウェイトプレトレーニング LLM の一般家庭を対象とした簡易な階層分割戦略について検討する。
レイヤーの大部分が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-03-26T17:20:04Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - ConvBLS: An Effective and Efficient Incremental Convolutional Broad
Learning System for Image Classification [63.49762079000726]
球状K-means(SKM)アルゴリズムと2段階マルチスケール(TSMS)機能融合に基づく畳み込み広範学習システム(ConvBLS)を提案する。
提案手法は前代未聞の効率的かつ効果的である。
論文 参考訳(メタデータ) (2023-04-01T04:16:12Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot
Learning [76.98364915566292]
一般的なプラクティスは、まずベースセット上でモデルをトレーニングし、その後、微調整によって新しいクラスに移行することである。
本稿では,基本モデル内の特定の層を凍結あるいは微調整することにより,部分的知識の伝達を提案する。
提案手法の有効性を実証するために, CUB と mini-ImageNet の広範な実験を行った。
論文 参考訳(メタデータ) (2021-02-08T03:27:05Z) - Why Layer-Wise Learning is Hard to Scale-up and a Possible Solution via
Accelerated Downsampling [19.025707054206457]
レイヤワイズ学習は、様々なデータセットのイメージ分類において最先端のパフォーマンスを達成することができる。
レイヤーワイズ学習のこれまでの研究は、単純な階層構造を持つネットワークに限られていた。
本稿では,浅層層における特徴空間の分離性が比較的低いため,階層学習のスケールアップを阻害する根本的な理由を明らかにする。
論文 参考訳(メタデータ) (2020-10-15T21:51:43Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。