論文の概要: What's in your Head? Emergent Behaviour in Multi-Task Transformer Models
- arxiv url: http://arxiv.org/abs/2104.06129v1
- Date: Tue, 13 Apr 2021 12:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:34:08.096572
- Title: What's in your Head? Emergent Behaviour in Multi-Task Transformer Models
- Title(参考訳): 頭の中に何があるの?
マルチタスクトランスモデルにおける創発的挙動
- Authors: Mor Geva, Uri Katz, Aviv Ben-Arie, Jonathan Berant
- Abstract要約: 私たちは、非ターゲットヘッドの振る舞い、すなわち、訓練されたタスクとは異なるタスクに属する入力を与えられたときのヘッドの出力を研究します。
非ターゲットヘッドが創発的行動を示し、ターゲットタスクを説明するか、あるいは元のタスクを超えて一般化する可能性がある。
- 参考スコア(独自算出の注目度): 26.557793822750302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary paradigm for multi-task training in natural language processing
is to represent the input with a shared pre-trained language model, and add a
small, thin network (head) per task. Given an input, a target head is the head
that is selected for outputting the final prediction. In this work, we examine
the behaviour of non-target heads, that is, the output of heads when given
input that belongs to a different task than the one they were trained for. We
find that non-target heads exhibit emergent behaviour, which may either explain
the target task, or generalize beyond their original task. For example, in a
numerical reasoning task, a span extraction head extracts from the input the
arguments to a computation that results in a number generated by a target
generative head. In addition, a summarization head that is trained with a
target question answering head, outputs query-based summaries when given a
question and a context from which the answer is to be extracted. This emergent
behaviour suggests that multi-task training leads to non-trivial extrapolation
of skills, which can be harnessed for interpretability and generalization.
- Abstract(参考訳): 自然言語処理におけるマルチタスクトレーニングの主要なパラダイムは、入力を共有事前学習言語モデルで表現し、タスク毎に小さなネットワーク(ヘッド)を追加することである。
入力が与えられると、最終予測を出力するために選択されたヘッドが目標ヘッドとなる。
本研究では,対象外の頭部の動作,すなわち,訓練対象と異なるタスクに属する入力が与えられた場合の頭部の出力について検討する。
非ターゲットヘッドが創発的行動を示し、ターゲットタスクを説明するか、あるいは元のタスクを超えて一般化する可能性がある。
例えば、数値推論タスクにおいて、スパン抽出ヘッドは、入力された引数から、ターゲット生成ヘッドによって生成された数値を生成する計算へ抽出する。
また、対象の質問応答ヘッドで訓練された要約ヘッドは、質問が与えられたときにクエリベースの要約を出力し、回答を抽出するコンテキストを出力する。
この創発的行動は、マルチタスクトレーニングが、解釈可能性や一般化に活用できるスキルの非自明な外挿につながることを示唆している。
関連論文リスト
- Do Attention Heads Compete or Cooperate during Counting? [0.12116854758481393]
初等課題における小型変圧器の深部機械的解釈可能性解析について述べる。
我々は、注目ヘッドが擬似アンサンブルとして振る舞うのか、すべて同じサブタスクを解くのか、それとも異なるサブタスクを実行するのかを問う。
論文 参考訳(メタデータ) (2025-02-10T17:21:39Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Identifying Selections for Unsupervised Subtask Discovery [12.22188797558089]
我々は、データ中の選択変数の存在を識別し、検証する理論と実験を提供する。
これらの選択はサブタスクとガイドポリシーを示すサブゴールとして機能する。
このアイデアを踏まえて、これらのサブゴールを学習し、意味のある振る舞いパターンをサブタスクとして抽出するシーケンシャルな非負行列分解法(seq-NMF)を開発した。
論文 参考訳(メタデータ) (2024-10-28T23:47:43Z) - Gradient-based inference of abstract task representations for generalization in neural networks [5.794537047184604]
ニューラルネットワークを介してタスク表現層に逆伝播する勾配は、現在のタスク要求を推測する効率的な方法であることを示す。
勾配に基づく推論は、学習効率の向上と、新しいタスクや制限への一般化をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-07-24T15:28:08Z) - Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - Pretext Tasks selection for multitask self-supervised speech
representation learning [23.39079406674442]
提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。
話者認識と自動音声認識の実験により,我々のアプローチが検証された。
論文 参考訳(メタデータ) (2021-07-01T16:36:29Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Probing the Probing Paradigm: Does Probing Accuracy Entail Task
Relevance? [27.64235687067883]
モデルが訓練されたタスクに必要のないモデルでも,言語特性の符号化を学習できることが示される。
ランダムノイズとしてデータに分散しても,これらの特性を確率レベルよりかなり上まで符号化できることを示す。
論文 参考訳(メタデータ) (2020-05-02T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。