論文の概要: Interpreting and Exploiting Functional Specialization in Multi-Head
Attention under Multi-task Learning
- arxiv url: http://arxiv.org/abs/2310.10318v1
- Date: Mon, 16 Oct 2023 11:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 14:46:00.418888
- Title: Interpreting and Exploiting Functional Specialization in Multi-Head
Attention under Multi-task Learning
- Title(参考訳): マルチタスク学習における多面的注意の解釈と展開
- Authors: Chong Li, Shaonan Wang, Yunhao Zhang, Jiajun Zhang, Chengqing Zong
- Abstract要約: 7つの事前学習型トランスモデルによる実験結果から,マルチタスク訓練後の機能特殊化現象の進展が示された。
マルチタスク学習において,機能的特殊化を高め,負の情報伝達を緩和する簡易なマルチタスク学習手法を提案する。
- 参考スコア(独自算出の注目度): 47.91871375077621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models, even though achieving super-human performance on
several downstream tasks, are often regarded as a black box and used as a
whole. It is still unclear what mechanisms they have learned, especially their
core module: multi-head attention. Inspired by functional specialization in the
human brain, which helps to efficiently handle multiple tasks, this work
attempts to figure out whether the multi-head attention module will evolve
similar function separation under multi-tasking training. If it is, can this
mechanism further improve the model performance? To investigate these
questions, we introduce an interpreting method to quantify the degree of
functional specialization in multi-head attention. We further propose a simple
multi-task training method to increase functional specialization and mitigate
negative information transfer in multi-task learning. Experimental results on
seven pre-trained transformer models have demonstrated that multi-head
attention does evolve functional specialization phenomenon after multi-task
training which is affected by the similarity of tasks. Moreover, the multi-task
training strategy based on functional specialization boosts performance in both
multi-task learning and transfer learning without adding any parameters.
- Abstract(参考訳): トランスフォーマーベースのモデルは、下流のタスクで超人的なパフォーマンスを達成するにもかかわらず、しばしばブラックボックスと見なされ、全体として使用される。
彼らが学んだメカニズム、特に彼らのコアモジュールは、マルチヘッドの注意である。
複数のタスクを効率的に処理するための人間の脳の機能的特殊化に触発されて、マルチヘッドアテンションモジュールがマルチタスクトレーニングで同様の機能分離を進化させるかどうかを見極めようとしている。
もしそうなら、このメカニズムはモデルパフォーマンスをさらに改善できるのだろうか?
そこで本研究では,機能的特殊化の度合いを定量化する解釈手法を提案する。
さらに,マルチタスク学習において,機能的特化を高め,負の情報伝達を軽減するための簡易なマルチタスク学習手法を提案する。
7つの事前学習型トランスフォーマーモデルによる実験結果から,タスクの類似性に影響されるマルチタスクトレーニング後に,マルチヘッドアテンションが機能的特殊化現象を進化させることが示された。
さらに,機能特化に基づくマルチタスクトレーニング戦略により,パラメータを追加することなく,マルチタスク学習とトランスファー学習の両方のパフォーマンスが向上する。
関連論文リスト
- Explaining the Effectiveness of Multi-Task Learning for Efficient
Knowledge Extraction from Spine MRI Reports [2.5953185061765884]
一つのマルチタスクモデルがタスク固有のモデルの性能にマッチすることを示す。
内科医による頚椎, 腰椎への注視所見について検討した。
論文 参考訳(メタデータ) (2022-05-06T01:51:19Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Multi-Task Neural Processes [105.22406384964144]
我々はマルチタスク学習のためのニューラル・プロセスの新たな変種であるマルチタスク・ニューラル・プロセスを開発する。
特に,各タスク改善のための帰納的バイアスを提供するために,関数空間内の関連するタスクから伝達可能な知識を探索することを提案する。
その結果、マルチタスク学習におけるタスク間の有用な知識の伝達におけるマルチタスクニューラルプロセスの有効性が示された。
論文 参考訳(メタデータ) (2021-11-10T17:27:46Z) - Measuring and Harnessing Transference in Multi-Task Learning [58.48659733262734]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
情報伝達や伝達のダイナミクスを、トレーニングを通して分析する。
論文 参考訳(メタデータ) (2020-10-29T08:25:43Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Knowledge Distillation for Multi-task Learning [38.20005345733544]
マルチタスク学習(MTL)は、全てのタスクで優れたパフォーマンスを達成し、計算コストを下げるための複数のタスクを実行する単一のモデルを学習することである。
そのようなモデルを学ぶには、難易度、大きさ、特性の異なる一連のタスクの損失を共同で最適化する必要がある。
本研究では,マルチタスク学習における不均衡問題に対処するために,知識蒸留に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T08:02:42Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。