Fugu-MT 論文翻訳(概要): Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons

論文の概要: Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons

arxiv url: http://arxiv.org/abs/2407.06488v1
Date: Tue, 9 Jul 2024 01:27:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 19:35:13.526385
Title: Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons
Title（参考訳）: タスク特異的ニューロンの検出と探索によるLLMのマルチタスク学習(一般化)の理解に向けて
Authors: Yongqi Leng, Deyi Xiong,
Abstract要約: 大規模言語モデル(LLM)におけるタスク依存ニューロンは,タスク固有データに対する勾配属性によって検出される。タスク固有のニューロンの重複は、タスク間の一般化と特殊化と強く関連している。連続学習において,現在のタスク固有ニューロンのみを微調整するニューロンレベルの連続微調整法を提案する。
参考スコア（独自算出の注目度）: 45.04661608619081
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) have demonstrated superior multi-task capabilities, understanding the learning mechanisms behind this is still a challenging problem. In this paper, we attempt to understand such mechanisms from the perspective of neurons. Specifically, we detect task-sensitive neurons in LLMs via gradient attribution on task-specific data. Through extensive deactivation and fine-tuning experiments, we demonstrate that the detected neurons are highly correlated with the given task, which we term as task-specific neurons. With these identified task-specific neurons, we delve into two common problems in multi-task learning and continuous learning: Generalization and Catastrophic Forgetting. We find that the overlap of task-specific neurons is strongly associated with generalization and specialization across tasks. Interestingly, at certain layers of LLMs, there is a high similarity in the parameters of different task-specific neurons, and such similarity is highly correlated with the generalization performance. Inspired by these findings, we propose a neuron-level continuous fine-tuning method that only fine-tunes the current task-specific neurons during continuous learning, and extensive experiments demonstrate the effectiveness of the proposed method. Our study provides insights into the interpretability of LLMs in multi-task learning.
Abstract（参考訳）: 大規模言語モデル(LLM)は優れたマルチタスク機能を示しているが、この背景にある学習メカニズムを理解することは依然として難しい問題である。本稿では、ニューロンの観点から、そのようなメカニズムを理解することを試みる。具体的には,LLMにおけるタスク依存ニューロンを,タスク固有データに対する勾配属性によって検出する。広範囲な不活性化実験と微調整実験により、検出されたニューロンが与えられたタスクと高い相関性を示し、タスク特異的ニューロンと呼ぶ。これらの特定タスク特異的ニューロンを用いて、多タスク学習と連続学習の2つの一般的な問題、すなわち一般化と破滅的フォーッティングを探索する。タスク固有のニューロンの重複は、タスク間の一般化と特殊化と強く関連している。興味深いことに、LLMの特定の層では、異なるタスク特異的ニューロンのパラメータに高い類似性があり、そのような類似性は一般化性能と強く相関している。これらの知見に触発されて,現在のタスク固有ニューロンのみを微調整するニューロンレベルの連続微調整法を提案し,提案手法の有効性を実験的に検証した。本研究は,マルチタスク学習におけるLLMの解釈可能性に関する知見を提供する。

関連論文リスト

Understanding and Controlling Repetition Neurons and Induction Heads in In-Context Learning [22.627302782393865]
本稿では,大規模言語モデル(LLM)の繰り返し入力パターン認識能力と,テキスト内学習(ICL)における性能の関係について検討する。実験の結果, 反復ニューロンのICL性能への影響は, 居住層の深さによって異なることが明らかとなった。
論文参考訳（メタデータ） (2025-07-10T14:40:31Z)
Brain-Inspired Exploration of Functional Networks and Key Neurons in Large Language Models [53.91412558475662]
我々は,大言語モデル(LLM)における機能的ネットワークの探索と同定のために,機能的ニューロイメージング解析の分野における機能的ニューロイメージングと類似した手法を用いる。実験の結果、人間の脳と同様、LLMは手術中に頻繁に再帰する機能的ネットワークを含んでいることが明らかとなった。主要な機能的ネットワークのマスキングはモデルの性能を著しく損なう一方、サブセットだけを保持することは効果的な操作を維持するのに十分である。
論文参考訳（メタデータ） (2025-02-13T04:42:39Z)
Synergistic pathways of modulation enable robust task packing within neural dynamics [0.0]
ニューラルダイナミクスの文脈変調の2つの形態の区別を探索するために、リカレント・ネットワーク・モデルを用いる。我々はこれらのメカニズムの区別を、それらが引き起こす神経力学のレベルで示す。これらの特徴は、これらのメカニズムがどのように振る舞うかの相補性と相乗性を示している。
論文参考訳（メタデータ） (2024-08-02T15:12:01Z)
Enhancing learning in spiking neural networks through neuronal heterogeneity and neuromodulatory signaling [52.06722364186432]
人工ニューラルネットワーク(ANN)の強化のための生物学的インフォームドフレームワークを提案する。提案したデュアルフレームアプローチは、多様なスパイキング動作をエミュレートするためのスパイキングニューラルネットワーク(SNN)の可能性を強調している。提案手法は脳にインスパイアされたコンパートメントモデルとタスク駆動型SNN, バイオインスピレーション, 複雑性を統合している。
論文参考訳（メタデータ） (2024-07-05T14:11:28Z)
Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文参考訳（メタデータ） (2024-06-13T16:04:11Z)
Sparse Multitask Learning for Efficient Neural Representation of Motor Imagery and Execution [30.186917337606477]
運動画像(MI)と運動実行(ME)タスクのためのスパースマルチタスク学習フレームワークを提案する。 MI-ME分類のためのデュアルタスクCNNモデルが与えられた場合、過渡的な接続に対して、サリエンシに基づくスペーシフィケーションアプローチを適用する。以上の結果から, この調整された疎水性は, 過度に適合する問題を緩和し, 少ないデータ量でテスト性能を向上させることが示唆された。
論文参考訳（メタデータ） (2023-12-10T09:06:16Z)
Randomly Weighted Neuromodulation in Neural Networks Facilitates Learning of Manifolds Common Across Tasks [1.9580473532948401]
幾何知覚ハッシュ関数(Geometric Sensitive Hashing function)は、教師あり学習においてクラス固有の多様体幾何を学ぶニューラルネットワークモデルである。神経変調システムを用いたランダムに重み付けされたニューラルネットワークは,この機能を実現することができることを示す。
論文参考訳（メタデータ） (2023-11-17T15:22:59Z)
Synergistic information supports modality integration and flexible learning in neural networks solving multiple tasks [107.8565143456161]
本稿では,様々な認知タスクを行う単純な人工ニューラルネットワークが採用する情報処理戦略について検討する。結果は、ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示している。トレーニング中に無作為にニューロンを停止させると、ネットワークの冗長性が増加し、ロバスト性の増加に対応する。
論文参考訳（メタデータ） (2022-10-06T15:36:27Z)
Multi-Task Neural Processes [105.22406384964144]
我々はマルチタスク学習のためのニューラル・プロセスの新たな変種であるマルチタスク・ニューラル・プロセスを開発する。特に,各タスク改善のための帰納的バイアスを提供するために,関数空間内の関連するタスクから伝達可能な知識を探索することを提案する。その結果、マルチタスク学習におけるタスク間の有用な知識の伝達におけるマルチタスクニューラルプロセスの有効性が示された。
論文参考訳（メタデータ） (2021-11-10T17:27:46Z)
On the relationship between disentanglement and multi-task learning [62.997667081978825]
ハードパラメータ共有に基づくマルチタスク学習と絡み合いの関係について,より詳しく検討する。マルチタスクニューラルネットワークトレーニングの過程において, 絡み合いが自然に現れることを示す。
論文参考訳（メタデータ） (2021-10-07T14:35:34Z)
Efficient and robust multi-task learning in the brain with modular task primitives [2.6166087473624318]
タスクプリミティブを具備したモジュールネットワークは,パラメータ数と更新率を低く保ちながら,複数のタスクを適切に学習することができることを示す。また,本手法により得られたスキルは,他のマルチタスク学習戦略に比べて幅広い摂動に対してより堅牢であることを示す。
論文参考訳（メタデータ） (2021-05-28T21:07:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。