論文の概要: Finding Skill Neurons in Pre-trained Transformer-based Language Models
- arxiv url: http://arxiv.org/abs/2211.07349v1
- Date: Mon, 14 Nov 2022 13:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:20:16.401024
- Title: Finding Skill Neurons in Pre-trained Transformer-based Language Models
- Title(参考訳): 事前学習型トランスフォーマー言語モデルにおけるスキルニューロンの探索
- Authors: Xiaozhi Wang, Kaiyue Wen, Zhengyan Zhang, Lei Hou, Zhiyuan Liu, Juanzi
Li
- Abstract要約: トランスフォーマーに基づく事前学習型言語モデルは、様々な自然言語処理タスクにおいて優れた性能を示した。
特定のタスクを即時チューニングした後、事前訓練されたトランスフォーマー内のいくつかのニューロンの活性化はタスクラベルを高い精度で予測できることが判明した。
また、ネットワークプルーニングによるトランスフォーマーの高速化や、より優れたトランスフォーマビリティインジケータの構築など、スキルニューロンの応用についても検討する。
- 参考スコア(独自算出の注目度): 46.484656229427834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pre-trained language models have demonstrated superior
performance on various natural language processing tasks. However, it remains
unclear how the skills required to handle these tasks distribute among model
parameters. In this paper, we find that after prompt tuning for specific tasks,
the activations of some neurons within pre-trained Transformers are highly
predictive of the task labels. We dub these neurons skill neurons and confirm
they encode task-specific skills by finding that: (1) Skill neurons are crucial
for handling tasks. Performances of pre-trained Transformers on a task
significantly drop when corresponding skill neurons are perturbed. (2) Skill
neurons are task-specific. Similar tasks tend to have similar distributions of
skill neurons. Furthermore, we demonstrate the skill neurons are most likely
generated in pre-training rather than fine-tuning by showing that the skill
neurons found with prompt tuning are also crucial for other fine-tuning methods
freezing neuron weights, such as the adapter-based tuning and BitFit. We also
explore the applications of skill neurons, including accelerating Transformers
with network pruning and building better transferability indicators. These
findings may promote further research on understanding Transformers. The source
code can be obtained from https://github.com/THU-KEG/Skill-Neuron.
- Abstract(参考訳): トランスフォーマーに基づく事前学習型言語モデルは、様々な自然言語処理タスクにおいて優れた性能を示した。
しかし、これらのタスクを扱うために必要なスキルがモデルパラメータ間でどのように分散するかは、まだ不明である。
本稿では,特定のタスクを即時チューニングした後に,事前学習したトランスフォーマー内のニューロンの活性化がタスクラベルを高い精度で予測できることを見出した。
我々は,これらのニューロンのスキルニューロンをダビングし,(1)スキルニューロンがタスクの処理に不可欠であることを示すことによって,タスク固有のスキルをコードすることを確認する。
学習済みトランスフォーマーの性能は、対応するスキルニューロンが摂動すると大幅に低下する。
2) スキルニューロンはタスク固有である。
同様のタスクは、スキルニューロンの同様の分布を持つ傾向がある。
さらに,適応型チューニングやビットフィットなどのニューロン重みを凍結する他のファインチューニング法においても,プロンプトチューニングで見出されるスキルニューロンが重要であることを示すことにより,事前学習においてスキルニューロンが生成される可能性が最も高いことを示す。
また,ネットワークプルーニングによるトランスフォーマーの高速化や,より優れた伝達性指標の構築など,スキルニューロンの応用についても検討する。
これらの結果は、トランスフォーマーの理解に関するさらなる研究を促進する可能性がある。
ソースコードはhttps://github.com/THU-KEG/Skill-Neuronから取得できる。
関連論文リスト
- Verified Neural Compressed Sensing [58.98637799432153]
精度の高い計算タスクのために、初めて(私たちの知識を最大限に活用するために)証明可能なニューラルネットワークを開発します。
極小問題次元(最大50)では、線形および双項線形測定からスパースベクトルを確実に回復するニューラルネットワークを訓練できることを示す。
ネットワークの複雑さは問題の難易度に適応できることを示し、従来の圧縮センシング手法が証明不可能な問題を解く。
論文 参考訳(メタデータ) (2024-05-07T12:20:12Z) - No One-Size-Fits-All Neurons: Task-based Neurons for Artificial Neural Networks [25.30801109401654]
人間の脳はタスクベースのニューロンのユーザなので、人工ネットワークの設計はタスクベースのアーキテクチャ設計からタスクベースのニューロン設計に移行できるだろうか?
本稿では,タスクベースニューロンのプロトタイピングのための2段階のフレームワークを提案する。
実験により、提案されたタスクベースのニューロン設計は実現可能であるだけでなく、他の最先端モデルと競合する性能を提供することが示された。
論文 参考訳(メタデータ) (2024-05-03T09:12:46Z) - Hebbian Learning based Orthogonal Projection for Continual Learning of
Spiking Neural Networks [74.3099028063756]
我々は,側方接続とヘビアン学習に基づくニューラル操作を用いた新しい手法を開発した。
我々は,反復する側方接続におけるヘビアン学習と反ヘビアン学習が,神経活動の主部分空間を効果的に抽出できることを示した。
我々の手法は、ほとんど忘れることなくニューラルネットワークをスパイクするために一貫して解決する。
論文 参考訳(メタデータ) (2024-02-19T09:29:37Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - Learning to Act through Evolution of Neural Diversity in Random Neural
Networks [9.387749254963595]
ほとんどの人工ニューラルネットワーク(ANN)では、神経計算は通常すべてのニューロン間で共有される活性化関数に抽象化される。
本稿では,複雑な計算を行うことができる多様なニューロンの集合を実現するために,神経中心パラメータの最適化を提案する。
論文 参考訳(メタデータ) (2023-05-25T11:33:04Z) - Redundancy and Concept Analysis for Code-trained Language Models [5.726842555987591]
コード学習言語モデルは、様々なコードインテリジェンスタスクに非常に効果的であることが証明されている。
計算ボトルネックとメモリ制約のため、多くのソフトウェアエンジニアリングアプリケーションのトレーニングとデプロイが難しい場合がある。
我々は,ソースコードモデルに対する最初のニューロンレベルの解析を行い,潜在表現内でのテクスチエントニューロンの同定を行う。
論文 参考訳(メタデータ) (2023-05-01T15:22:41Z) - Complex Dynamic Neurons Improved Spiking Transformer Network for
Efficient Automatic Speech Recognition [8.998797644039064]
リークインテグレーテッド・アンド・ファイア(LIF)ニューロンを用いたスパイクニューラルネットワーク(SNN)は、音声認識(ASR)タスクで一般的に用いられている。
ここでは、スパイキングトランスから生成された逐次パターンを後処理する4種類の神経力学を紹介する。
その結果,DyTr-SNNは音素誤り率の低下,計算コストの低下,ロバスト性の向上など,非トイ自動音声認識タスクをうまく処理できることがわかった。
論文 参考訳(メタデータ) (2023-02-02T16:20:27Z) - Multi-Task Neural Processes [105.22406384964144]
我々はマルチタスク学習のためのニューラル・プロセスの新たな変種であるマルチタスク・ニューラル・プロセスを開発する。
特に,各タスク改善のための帰納的バイアスを提供するために,関数空間内の関連するタスクから伝達可能な知識を探索することを提案する。
その結果、マルチタスク学習におけるタスク間の有用な知識の伝達におけるマルチタスクニューラルプロセスの有効性が示された。
論文 参考訳(メタデータ) (2021-11-10T17:27:46Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。