論文の概要: Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from
a Parametric Perspective
- arxiv url: http://arxiv.org/abs/2310.11451v1
- Date: Tue, 17 Oct 2023 17:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 14:39:25.203150
- Title: Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from
a Parametric Perspective
- Title(参考訳): ニューラルナゲットの探索:パラメトリック視点による大規模言語モデルの知識伝達
- Authors: Ming Zhong, Chenxin An, Weizhu Chen, Jiawei Han, Pengcheng He
- Abstract要約: 大規模言語モデル(LLM)は本質的に、広範囲なコーパスの事前学習を通じて、パラメータ内の豊富な知識を符号化する。
本稿では,パラメトリックの観点から,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
- 参考スコア(独自算出の注目度): 114.70886320845715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) inherently encode a wealth of knowledge within
their parameters through pre-training on extensive corpora. While prior
research has delved into operations on these parameters to manipulate the
underlying implicit knowledge (encompassing detection, editing, and merging),
there remains an ambiguous understanding regarding their transferability across
models with varying scales. In this paper, we seek to empirically investigate
knowledge transfer from larger to smaller models through a parametric
perspective. To achieve this, we employ sensitivity-based techniques to extract
and align knowledge-specific parameters between different LLMs. Moreover, the
LoRA module is used as the intermediary mechanism for injecting the extracted
knowledge into smaller models. Evaluations across four benchmarks validate the
efficacy of our proposed method. Our findings highlight the critical factors
contributing to the process of parametric knowledge transfer, underscoring the
transferability of model parameters across LLMs of different scales. We release
code and data at \url{https://github.com/maszhongming/ParaKnowTransfer}.
- Abstract(参考訳): 大規模言語モデル(LLM)は本質的に、幅広いコーパスの事前学習を通じて、パラメータ内の豊富な知識を符号化する。
以前の研究では、これらのパラメータの操作によって、基礎となる暗黙の知識(検出、編集、マージを含む)を操作するが、スケールの異なるモデル間での伝達可能性についてはあいまいな理解が残っている。
本稿では,パラメトリックな視点から,大規模モデルから小型モデルへの知識伝達を実証的に検討する。
そこで我々は、感度に基づく手法を用いて、異なるLLM間で知識固有のパラメータを抽出・調整する。
さらに、LoRAモジュールは、抽出した知識を小さなモデルに注入する仲介機構として使用される。
提案手法の有効性を4つのベンチマークで検証した。
本研究は,パラメトリック知識の伝達過程に寄与する重要な要因を浮き彫りにして,異なるスケールのllmにおけるモデルパラメータの伝達可能性を明らかにする。
コードとデータは \url{https://github.com/maszhongming/ParaKnowTransfer} でリリースします。
関連論文リスト
- Hyperparameter Tuning for Causal Inference with Double Machine Learning:
A Simulation Study [4.526082390949313]
機械学習手法の予測性能と結果の因果推定との関係を実証的に評価する。
我々は,2019 Atlantic Causal Inference Conference Data Challengeのデータを用いて,広範囲にわたるシミュレーション研究を行う。
論文 参考訳(メタデータ) (2024-02-07T09:01:51Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Retrieval-Augmented Meta Learning for Low-Resource Text Classification [22.653220906899612]
検索型メタ学習(RAML)というメタ学習手法を提案する。
推論にはパラメータ化を使用するが、外部コーパスから非パラメトリック知識を取得して推論を行う。
RAMLは、現在のSOTA低リソーステキスト分類モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-09-10T10:05:03Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Beyond Convergence: Identifiability of Machine Learning and Deep
Learning Models [0.0]
本研究では,モデルパラメータ識別可能性の概念を,モーションセンサデータからのパラメータ推定に焦点をあてたケーススタディにより検討する。
我々は、質量、剛性、平衡脚長などの主観的パラメータを推定するために、ディープニューラルネットワークを用いる。
その結果、観測データから特定のパラメータを特定できるが、他のパラメータは未同定のままであることがわかった。
論文 参考訳(メタデータ) (2023-07-21T03:40:53Z) - Differentiable modeling to unify machine learning and physical models
and advance Geosciences [38.92849886903847]
微分可能地科学モデリング(DG)の概念,適用性,意義について概説する。
微分可能(differentiable)とは、モデル変数に関する勾配を正確かつ効率的に計算すること。
予備的な証拠は、DGが機械学習よりも優れた解釈可能性と因果性を提供することを示している。
論文 参考訳(メタデータ) (2023-01-10T15:24:14Z) - Meta Knowledge Condensation for Federated Learning [65.20774786251683]
既存のフェデレートされた学習パラダイムは通常、より強力なモデルを達成するために、中央の解決器で分散モデルを広範囲に交換する。
これにより、特にデータ分散が不均一である場合、サーバと複数のクライアントの間で深刻な通信負荷が発生します。
既存のパラダイムとは違って,フェデレート学習におけるコミュニケーションコストを大幅に削減する新たな視点を導入する。
論文 参考訳(メタデータ) (2022-09-29T15:07:37Z) - RevUp: Revise and Update Information Bottleneck for Event Representation [16.54912614895861]
機械学習では、潜在変数は基礎となるデータ構造をキャプチャする上で重要な役割を果たすが、しばしば教師なしである。
本稿では,側知識を用いて個別潜伏変数の学習を指示する半教師付き情報ボトルネックモデルを提案する。
提案手法は,既存のパラメータ注入法を一般化し,言語に基づくイベントモデリングにおけるアプローチの実証的なケーススタディを行う。
論文 参考訳(メタデータ) (2022-05-24T17:54:59Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。