論文の概要: Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons
- arxiv url: http://arxiv.org/abs/2407.06488v1
- Date: Tue, 9 Jul 2024 01:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:35:13.526385
- Title: Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons
- Title(参考訳): タスク特異的ニューロンの検出と探索によるLLMのマルチタスク学習(一般化)の理解に向けて
- Authors: Yongqi Leng, Deyi Xiong,
- Abstract要約: 大規模言語モデル(LLM)におけるタスク依存ニューロンは,タスク固有データに対する勾配属性によって検出される。
タスク固有のニューロンの重複は、タスク間の一般化と特殊化と強く関連している。
連続学習において,現在のタスク固有ニューロンのみを微調整するニューロンレベルの連続微調整法を提案する。
- 参考スコア(独自算出の注目度): 45.04661608619081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have demonstrated superior multi-task capabilities, understanding the learning mechanisms behind this is still a challenging problem. In this paper, we attempt to understand such mechanisms from the perspective of neurons. Specifically, we detect task-sensitive neurons in LLMs via gradient attribution on task-specific data. Through extensive deactivation and fine-tuning experiments, we demonstrate that the detected neurons are highly correlated with the given task, which we term as task-specific neurons. With these identified task-specific neurons, we delve into two common problems in multi-task learning and continuous learning: Generalization and Catastrophic Forgetting. We find that the overlap of task-specific neurons is strongly associated with generalization and specialization across tasks. Interestingly, at certain layers of LLMs, there is a high similarity in the parameters of different task-specific neurons, and such similarity is highly correlated with the generalization performance. Inspired by these findings, we propose a neuron-level continuous fine-tuning method that only fine-tunes the current task-specific neurons during continuous learning, and extensive experiments demonstrate the effectiveness of the proposed method. Our study provides insights into the interpretability of LLMs in multi-task learning.
- Abstract(参考訳): 大規模言語モデル(LLM)は優れたマルチタスク機能を示しているが、この背景にある学習メカニズムを理解することは依然として難しい問題である。
本稿では、ニューロンの観点から、そのようなメカニズムを理解することを試みる。
具体的には,LLMにおけるタスク依存ニューロンを,タスク固有データに対する勾配属性によって検出する。
広範囲な不活性化実験と微調整実験により、検出されたニューロンが与えられたタスクと高い相関性を示し、タスク特異的ニューロンと呼ぶ。
これらの特定タスク特異的ニューロンを用いて、多タスク学習と連続学習の2つの一般的な問題、すなわち一般化と破滅的フォーッティングを探索する。
タスク固有のニューロンの重複は、タスク間の一般化と特殊化と強く関連している。
興味深いことに、LLMの特定の層では、異なるタスク特異的ニューロンのパラメータに高い類似性があり、そのような類似性は一般化性能と強く相関している。
これらの知見に触発されて,現在のタスク固有ニューロンのみを微調整するニューロンレベルの連続微調整法を提案し,提案手法の有効性を実験的に検証した。
本研究は,マルチタスク学習におけるLLMの解釈可能性に関する知見を提供する。
関連論文リスト
- BrainMAP: Learning Multiple Activation Pathways in Brain Networks [77.15180533984947]
本稿では,脳ネットワークにおける複数の活性化経路を学習するための新しいフレームワークであるBrainMAPを紹介する。
本フレームワークは,タスクに関わる重要な脳領域の説明的分析を可能にする。
論文 参考訳(メタデータ) (2024-12-23T09:13:35Z) - Synergistic pathways of modulation enable robust task packing within neural dynamics [0.0]
ニューラルダイナミクスの文脈変調の2つの形態の区別を探索するために、リカレント・ネットワーク・モデルを用いる。
我々はこれらのメカニズムの区別を、それらが引き起こす神経力学のレベルで示す。
これらの特徴は、これらのメカニズムがどのように振る舞うかの相補性と相乗性を示している。
論文 参考訳(メタデータ) (2024-08-02T15:12:01Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - Sparse Multitask Learning for Efficient Neural Representation of Motor
Imagery and Execution [30.186917337606477]
運動画像(MI)と運動実行(ME)タスクのためのスパースマルチタスク学習フレームワークを提案する。
MI-ME分類のためのデュアルタスクCNNモデルが与えられた場合、過渡的な接続に対して、サリエンシに基づくスペーシフィケーションアプローチを適用する。
以上の結果から, この調整された疎水性は, 過度に適合する問題を緩和し, 少ないデータ量でテスト性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T09:06:16Z) - Randomly Weighted Neuromodulation in Neural Networks Facilitates
Learning of Manifolds Common Across Tasks [1.9580473532948401]
幾何知覚ハッシュ関数(Geometric Sensitive Hashing function)は、教師あり学習においてクラス固有の多様体幾何を学ぶニューラルネットワークモデルである。
神経変調システムを用いたランダムに重み付けされたニューラルネットワークは,この機能を実現することができることを示す。
論文 参考訳(メタデータ) (2023-11-17T15:22:59Z) - Synergistic information supports modality integration and flexible
learning in neural networks solving multiple tasks [107.8565143456161]
本稿では,様々な認知タスクを行う単純な人工ニューラルネットワークが採用する情報処理戦略について検討する。
結果は、ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示している。
トレーニング中に無作為にニューロンを停止させると、ネットワークの冗長性が増加し、ロバスト性の増加に対応する。
論文 参考訳(メタデータ) (2022-10-06T15:36:27Z) - Multi-Task Neural Processes [105.22406384964144]
我々はマルチタスク学習のためのニューラル・プロセスの新たな変種であるマルチタスク・ニューラル・プロセスを開発する。
特に,各タスク改善のための帰納的バイアスを提供するために,関数空間内の関連するタスクから伝達可能な知識を探索することを提案する。
その結果、マルチタスク学習におけるタスク間の有用な知識の伝達におけるマルチタスクニューラルプロセスの有効性が示された。
論文 参考訳(メタデータ) (2021-11-10T17:27:46Z) - On the relationship between disentanglement and multi-task learning [62.997667081978825]
ハードパラメータ共有に基づくマルチタスク学習と絡み合いの関係について,より詳しく検討する。
マルチタスクニューラルネットワークトレーニングの過程において, 絡み合いが自然に現れることを示す。
論文 参考訳(メタデータ) (2021-10-07T14:35:34Z) - Efficient and robust multi-task learning in the brain with modular task
primitives [2.6166087473624318]
タスクプリミティブを具備したモジュールネットワークは,パラメータ数と更新率を低く保ちながら,複数のタスクを適切に学習することができることを示す。
また,本手法により得られたスキルは,他のマルチタスク学習戦略に比べて幅広い摂動に対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2021-05-28T21:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。