論文の概要: What's in your Head? Emergent Behaviour in Multi-Task Transformer Models
- arxiv url: http://arxiv.org/abs/2104.06129v1
- Date: Tue, 13 Apr 2021 12:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:34:08.096572
- Title: What's in your Head? Emergent Behaviour in Multi-Task Transformer Models
- Title(参考訳): 頭の中に何があるの?
マルチタスクトランスモデルにおける創発的挙動
- Authors: Mor Geva, Uri Katz, Aviv Ben-Arie, Jonathan Berant
- Abstract要約: 私たちは、非ターゲットヘッドの振る舞い、すなわち、訓練されたタスクとは異なるタスクに属する入力を与えられたときのヘッドの出力を研究します。
非ターゲットヘッドが創発的行動を示し、ターゲットタスクを説明するか、あるいは元のタスクを超えて一般化する可能性がある。
- 参考スコア(独自算出の注目度): 26.557793822750302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary paradigm for multi-task training in natural language processing
is to represent the input with a shared pre-trained language model, and add a
small, thin network (head) per task. Given an input, a target head is the head
that is selected for outputting the final prediction. In this work, we examine
the behaviour of non-target heads, that is, the output of heads when given
input that belongs to a different task than the one they were trained for. We
find that non-target heads exhibit emergent behaviour, which may either explain
the target task, or generalize beyond their original task. For example, in a
numerical reasoning task, a span extraction head extracts from the input the
arguments to a computation that results in a number generated by a target
generative head. In addition, a summarization head that is trained with a
target question answering head, outputs query-based summaries when given a
question and a context from which the answer is to be extracted. This emergent
behaviour suggests that multi-task training leads to non-trivial extrapolation
of skills, which can be harnessed for interpretability and generalization.
- Abstract(参考訳): 自然言語処理におけるマルチタスクトレーニングの主要なパラダイムは、入力を共有事前学習言語モデルで表現し、タスク毎に小さなネットワーク(ヘッド)を追加することである。
入力が与えられると、最終予測を出力するために選択されたヘッドが目標ヘッドとなる。
本研究では,対象外の頭部の動作,すなわち,訓練対象と異なるタスクに属する入力が与えられた場合の頭部の出力について検討する。
非ターゲットヘッドが創発的行動を示し、ターゲットタスクを説明するか、あるいは元のタスクを超えて一般化する可能性がある。
例えば、数値推論タスクにおいて、スパン抽出ヘッドは、入力された引数から、ターゲット生成ヘッドによって生成された数値を生成する計算へ抽出する。
また、対象の質問応答ヘッドで訓練された要約ヘッドは、質問が与えられたときにクエリベースの要約を出力し、回答を抽出するコンテキストを出力する。
この創発的行動は、マルチタスクトレーニングが、解釈可能性や一般化に活用できるスキルの非自明な外挿につながることを示唆している。
関連論文リスト
- Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - Object-Centric Multi-Task Learning for Human Instances [8.035105819936808]
オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャについて検討する。
我々は、人中心クエリ(HCQ)と呼ばれる、人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。
実験結果から,提案したマルチタスクネットワークは,最先端タスク固有モデルに匹敵する精度を実現することがわかった。
論文 参考訳(メタデータ) (2023-03-13T01:10:50Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - One-Shot Learning from a Demonstration with Hierarchical Latent Language [43.140223608960554]
DescribeWorldは、接地エージェントにおけるこのような一般化スキルをテストするために設計された環境である。
エージェントはMinecraftのようなグリッドワールドでひとつのタスクのデモを観察し、その後、新しいマップで同じタスクを実行するように要求される。
テキストベースの推論を行うエージェントは,タスクをランダムに分割した状態での課題に対して,より適していることがわかった。
論文 参考訳(メタデータ) (2022-03-09T15:36:43Z) - Pretext Tasks selection for multitask self-supervised speech
representation learning [23.39079406674442]
提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。
話者認識と自動音声認識の実験により,我々のアプローチが検証された。
論文 参考訳(メタデータ) (2021-07-01T16:36:29Z) - Representation Learning Beyond Linear Prediction Functions [33.94130046391917]
そこで本研究では,音源タスクと対象タスクが線形関数以外の異なる予測関数空間を使用する場合,多様性が達成可能であることを示す。
一般関数クラスの場合、エローダ次元は多様性に必要なタスクの数に低い境界を与える。
論文 参考訳(メタデータ) (2021-05-31T14:21:52Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Probing the Probing Paradigm: Does Probing Accuracy Entail Task
Relevance? [27.64235687067883]
モデルが訓練されたタスクに必要のないモデルでも,言語特性の符号化を学習できることが示される。
ランダムノイズとしてデータに分散しても,これらの特性を確率レベルよりかなり上まで符号化できることを示す。
論文 参考訳(メタデータ) (2020-05-02T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。