論文の概要: Structural analysis of an all-purpose question answering model
- arxiv url: http://arxiv.org/abs/2104.06045v1
- Date: Tue, 13 Apr 2021 09:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 21:49:34.737876
- Title: Structural analysis of an all-purpose question answering model
- Title(参考訳): 全目的質問応答モデルの構造解析
- Authors: Vincent Micheli, Quentin Heinrich, Fran\c{c}ois Fleuret, Wacim
Belblidia
- Abstract要約: 我々は,我々が導入した新しい汎用質問応答モデルの構造分析を行う。
驚くべきことに、このモデルはタスク間の強い伝達効果がなくてもシングルタスクのパフォーマンスを維持する。
我々は,特定のタスクに特化しているアテンションヘッドと,マルチタスクとシングルタスクの両方において,他のタスクよりも学習しやすいアテンションヘッドを観察する。
- 参考スコア(独自算出の注目度): 0.42056926734482064
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Attention is a key component of the now ubiquitous pre-trained language
models. By learning to focus on relevant pieces of information, these
Transformer-based architectures have proven capable of tackling several tasks
at once and sometimes even surpass their single-task counterparts. To better
understand this phenomenon, we conduct a structural analysis of a new
all-purpose question answering model that we introduce. Surprisingly, this
model retains single-task performance even in the absence of a strong transfer
effect between tasks. Through attention head importance scoring, we observe
that attention heads specialize in a particular task and that some heads are
more conducive to learning than others in both the multi-task and single-task
settings.
- Abstract(参考訳): 注意は、現在ユビキタスに訓練済みの言語モデルの重要な要素である。
関連する情報に焦点を絞ることを学ぶことで、これらのトランスフォーマーベースのアーキテクチャは、複数のタスクを同時に処理し、時には1つのタスクのそれを超えることができることが証明された。
この現象をよりよく理解するために、我々は、導入する新しい汎用質問応答モデルの構造分析を行う。
驚くべきことに、このモデルはタスク間の強い伝達効果がなくてもシングルタスクのパフォーマンスを維持する。
注意頭重要度スコアリングを通じて、注意頭は特定のタスクに特化しており、複数タスクと単一タスクの両方の設定において、他のタスクよりも学習しやすいものが存在することを観察する。
関連論文リスト
- Object-Centric Multi-Task Learning for Human Instances [8.035105819936808]
オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャについて検討する。
我々は、人中心クエリ(HCQ)と呼ばれる、人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。
実験結果から,提案したマルチタスクネットワークは,最先端タスク固有モデルに匹敵する精度を実現することがわかった。
論文 参考訳(メタデータ) (2023-03-13T01:10:50Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - Saliency-Regularized Deep Multi-Task Learning [7.3810864598379755]
マルチタスク学習は、知識を共有するために複数の学習タスクを強制し、一般化能力を改善する。
現代のディープマルチタスク学習は、潜在機能とタスク共有を共同で学習することができるが、それらはタスク関係において不明瞭である。
本稿では,潜在的特徴と明示的な課題関係を共同で学習するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-03T20:26:44Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z) - On the relationship between disentanglement and multi-task learning [62.997667081978825]
ハードパラメータ共有に基づくマルチタスク学習と絡み合いの関係について,より詳しく検討する。
マルチタスクニューラルネットワークトレーニングの過程において, 絡み合いが自然に現れることを示す。
論文 参考訳(メタデータ) (2021-10-07T14:35:34Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。