論文の概要: Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from
a Parametric Perspective
- arxiv url: http://arxiv.org/abs/2310.11451v1
- Date: Tue, 17 Oct 2023 17:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 14:39:25.203150
- Title: Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from
a Parametric Perspective
- Title(参考訳): ニューラルナゲットの探索:パラメトリック視点による大規模言語モデルの知識伝達
- Authors: Ming Zhong, Chenxin An, Weizhu Chen, Jiawei Han, Pengcheng He
- Abstract要約: 大規模言語モデル(LLM)は本質的に、広範囲なコーパスの事前学習を通じて、パラメータ内の豊富な知識を符号化する。
本稿では,パラメトリックの観点から,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
- 参考スコア(独自算出の注目度): 114.70886320845715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) inherently encode a wealth of knowledge within
their parameters through pre-training on extensive corpora. While prior
research has delved into operations on these parameters to manipulate the
underlying implicit knowledge (encompassing detection, editing, and merging),
there remains an ambiguous understanding regarding their transferability across
models with varying scales. In this paper, we seek to empirically investigate
knowledge transfer from larger to smaller models through a parametric
perspective. To achieve this, we employ sensitivity-based techniques to extract
and align knowledge-specific parameters between different LLMs. Moreover, the
LoRA module is used as the intermediary mechanism for injecting the extracted
knowledge into smaller models. Evaluations across four benchmarks validate the
efficacy of our proposed method. Our findings highlight the critical factors
contributing to the process of parametric knowledge transfer, underscoring the
transferability of model parameters across LLMs of different scales. We release
code and data at \url{https://github.com/maszhongming/ParaKnowTransfer}.
- Abstract(参考訳): 大規模言語モデル(LLM)は本質的に、幅広いコーパスの事前学習を通じて、パラメータ内の豊富な知識を符号化する。
以前の研究では、これらのパラメータの操作によって、基礎となる暗黙の知識(検出、編集、マージを含む)を操作するが、スケールの異なるモデル間での伝達可能性についてはあいまいな理解が残っている。
本稿では,パラメトリックな視点から,大規模モデルから小型モデルへの知識伝達を実証的に検討する。
そこで我々は、感度に基づく手法を用いて、異なるLLM間で知識固有のパラメータを抽出・調整する。
さらに、LoRAモジュールは、抽出した知識を小さなモデルに注入する仲介機構として使用される。
提案手法の有効性を4つのベンチマークで検証した。
本研究は,パラメトリック知識の伝達過程に寄与する重要な要因を浮き彫りにして,異なるスケールのllmにおけるモデルパラメータの伝達可能性を明らかにする。
コードとデータは \url{https://github.com/maszhongming/ParaKnowTransfer} でリリースします。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - When Context Leads but Parametric Memory Follows in Large Language Models [4.567122178196834]
大規模言語モデル (LLM) は多様な知識源の活用において顕著な進歩を見せている。
本研究では,9つのLLMがオープンな質問に対して,局所的な文脈とグローバルなパラメータの知識を割り当てる方法について検討した。
論文 参考訳(メタデータ) (2024-09-13T00:03:19Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.68829963458408]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Retrieval-Augmented Meta Learning for Low-Resource Text Classification [22.653220906899612]
検索型メタ学習(RAML)というメタ学習手法を提案する。
推論にはパラメータ化を使用するが、外部コーパスから非パラメトリック知識を取得して推論を行う。
RAMLは、現在のSOTA低リソーステキスト分類モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-09-10T10:05:03Z) - Beyond Convergence: Identifiability of Machine Learning and Deep
Learning Models [0.0]
本研究では,モデルパラメータ識別可能性の概念を,モーションセンサデータからのパラメータ推定に焦点をあてたケーススタディにより検討する。
我々は、質量、剛性、平衡脚長などの主観的パラメータを推定するために、ディープニューラルネットワークを用いる。
その結果、観測データから特定のパラメータを特定できるが、他のパラメータは未同定のままであることがわかった。
論文 参考訳(メタデータ) (2023-07-21T03:40:53Z) - Meta Knowledge Condensation for Federated Learning [65.20774786251683]
既存のフェデレートされた学習パラダイムは通常、より強力なモデルを達成するために、中央の解決器で分散モデルを広範囲に交換する。
これにより、特にデータ分散が不均一である場合、サーバと複数のクライアントの間で深刻な通信負荷が発生します。
既存のパラダイムとは違って,フェデレート学習におけるコミュニケーションコストを大幅に削減する新たな視点を導入する。
論文 参考訳(メタデータ) (2022-09-29T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。