論文の概要: Let's Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model
- arxiv url: http://arxiv.org/abs/2403.11621v1
- Date: Mon, 18 Mar 2024 09:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:47:44.314772
- Title: Let's Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model
- Title(参考訳): ニューロンに焦点をあてて:大言語モデルのためのニューロンレベルスーパービジョンファインチューニング
- Authors: Haoyun Xu, Runzhe Zhan, Derek F. Wong, Lidia S. Chao,
- Abstract要約: 大型言語モデル(LLM)は、様々な行動や役割を示すニューロンで構成されている。
最近の研究によると、全てのニューロンが異なるデータセットで活動しているわけではない。
我々は,パラメータ学習の粒度を個々のニューロンに絞り込む新しいアプローチであるNeFT(Neuron-Level Fine-Tuning)を導入する。
- 参考スコア(独自算出の注目度): 43.107778640669544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are composed of neurons that exhibit various behaviors and roles, which become increasingly diversified as models scale. Recent studies have revealed that not all neurons are active across different datasets, and this sparsity correlates positively with the task-specific ability, leading to advancements in model pruning and training efficiency. Traditional fine-tuning methods engage all parameters of LLMs, which is computationally expensive and may not be necessary. In contrast, Parameter-Efficient Fine-Tuning (PEFT) approaches aim to minimize the number of trainable parameters, yet they still operate at a relatively macro scale (e.g., layer-level). We introduce Neuron-Level Fine-Tuning (NeFT), a novel approach that refines the granularity of parameter training down to the individual neuron, enabling more precise and computationally efficient model updates. The experimental results show that NeFT not only exceeded the performance of full-parameter fine-tuning and PEFT but also provided insights into the analysis of neurons.
- Abstract(参考訳): 大型言語モデル(LLM)は、様々な行動や役割を示すニューロンで構成されており、モデルスケールとともに多様化が進んでいる。
近年の研究では、全てのニューロンが異なるデータセットで活動しているわけではないことが示されており、この空間性はタスク固有の能力と正の相関関係があり、モデルプルーニングとトレーニング効率の進歩につながっている。
従来の微調整法は、計算コストが高く、必要ではないかもしれないLSMの全てのパラメータを扱う。
対照的に、パラメータ効率の良いファインチューニング(PEFT)アプローチは、トレーニング可能なパラメータの数を最小化することを目的としている。
我々は、パラメータトレーニングの粒度を個々のニューロンに洗練し、より正確で計算効率の良いモデル更新を可能にする新しいアプローチであるNeuron-Level Fine-Tuning(NeFT)を紹介した。
実験の結果,NeFTは全パラメータ微調整とPEFTの性能を上回るだけでなく,ニューロンの解析にも洞察を与えていることがわかった。
関連論文リスト
- Discovering Long-Term Effects on Parameter Efficient Fine-tuning [36.83255498301937]
事前訓練されたニューラルネットワーク(Annns)は、堅牢なパターン認識機能を示す。
アンとBNNはヒト脳、特にBNNと大きな類似点を共有している
アンは微調整によって新しい知識を得ることができる。
論文 参考訳(メタデータ) (2024-08-24T03:27:29Z) - Gaussian Process Neural Additive Models [3.7969209746164325]
ランダムフーリエ特徴を用いたガウス過程の単一層ニューラルネットワーク構築を用いたニューラル付加モデル(NAM)の新たなサブクラスを提案する。
GP-NAMは凸目的関数と、特徴次元と線形に成長する訓練可能なパラメータの数が有利である。
GP-NAMは,パラメータ数を大幅に削減して,分類タスクと回帰タスクの両方において,同等あるいはより優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T20:29:34Z) - Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data [3.46029409929709]
最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータの解析を自己回帰生成問題に再構成した。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、本質的なシミュレートされた神経回路の動作を正確に予測し、方向を含む基盤となる神経回路の接続性を推定した。
論文 参考訳(メタデータ) (2023-10-31T20:17:32Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Simple and complex spiking neurons: perspectives and analysis in a
simple STDP scenario [0.7829352305480283]
スパイキングニューラルネットワーク(SNN)は、生物学や神経科学にヒントを得て、高速で効率的な学習システムを構築する。
この研究は、文学における様々なニューロンモデルを考察し、単変数で効率的な計算ニューロンモデルを選択し、様々な種類の複雑さを提示する。
我々は, LIF, Quadratic I&F (QIF) および Exponential I&F (EIF) の3つの単純なI&Fニューロンモデルの比較研究を行い, より複雑なモデルの使用によってシステムの性能が向上するかどうかを検証した。
論文 参考訳(メタデータ) (2022-06-28T10:01:51Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - On the Sparsity of Neural Machine Translation Models [65.49762428553345]
性能向上のために冗長パラメータを再利用できるかどうかを検討する。
実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
論文 参考訳(メタデータ) (2020-10-06T11:47:20Z) - Flexible Transmitter Network [84.90891046882213]
現在のニューラルネットワークはMPモデルに基づいて構築されており、通常はニューロンを他のニューロンから受信した信号の実際の重み付け集約上での活性化関数の実行として定式化する。
本稿では,フレキシブル・トランスミッタ(FT)モデルを提案する。
本稿では、最も一般的な完全接続型フィードフォワードアーキテクチャ上に構築された、フレキシブルトランスミッタネットワーク(FTNet)について述べる。
論文 参考訳(メタデータ) (2020-04-08T06:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。