論文の概要: Not All Attention Is All You Need
- arxiv url: http://arxiv.org/abs/2104.04692v1
- Date: Sat, 10 Apr 2021 06:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 05:36:43.540418
- Title: Not All Attention Is All You Need
- Title(参考訳): すべての注意が必要なものではない
- Authors: Hongqiu Wu, Hai Zhao, Min Zhang
- Abstract要約: タスク固有のチューニングに自己学習型学習設計を施した事前学習型言語モデルに注目した。
我々は,80%近い自己着脱層を有する軽量な最先端モデルが,複数のタスクにおいてさらに優れた結果が得られることを実証する。
- 参考スコア(独自算出の注目度): 48.000063280183376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention based models have achieved remarkable success in natural
language processing. However, the self-attention network design is questioned
as suboptimal in recent studies, due to its veiled validity and high
redundancy. In this paper, we focus on pre-trained language models with
self-pruning training design on task-specific tuning. We demonstrate that the
lighter state-of-the-art models with nearly 80% of self-attention layers
pruned, may achieve even better results on multiple tasks, including natural
language understanding, document classification, named entity recognition and
POS tagging, with nearly twice faster inference.
- Abstract(参考訳): 自己注意に基づくモデルは自然言語処理において顕著な成功を収めた。
しかし,近年の研究では,自己着脱型ネットワークの設計は,有効性や冗長性が高いため,準最適であると見なされている。
本稿では,タスク固有チューニングに基づく自己計画型学習設計による事前学習言語モデルに焦点を当てる。
その結果,自然言語理解,文書分類,名前付きエンティティ認識,posタグづけなど複数のタスクにおいて,80%近い自己認識層が刈り取られた,より軽量な最先端モデルがさらに優れた結果が得られることを実証した。
関連論文リスト
- Probing self-attention in self-supervised speech models for cross-linguistic differences [0.0]
1つの小型自己教師型音声トランスモデル(TERA)の自己認識機構について検討する。
たとえ小さなモデルであっても、学習された注目は、ほぼ完全に対角形からほぼ完全にグローバルなものまで様々である。
トルコ語と英語の注意パターンの顕著な違いを強調し,事前学習中に重要な音韻情報を学ぶことを示す。
論文 参考訳(メタデータ) (2024-09-04T22:47:33Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Self-training with Few-shot Rationalization: Teacher Explanations Aid
Student in Few-shot NLU [88.8401599172922]
タスク固有のラベルと合理的性に制限された自己学習言語モデルに基づくフレームワークを開発する。
ニューラルネットワークの性能は,その合理的な予測を意識することで,大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-09-17T00:36:46Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Guiding Attention for Self-Supervised Learning with Transformers [24.785500242464646]
双方向変換器を用いた効率的な自己教師型学習を実現する手法を提案する。
我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。
論文 参考訳(メタデータ) (2020-10-06T00:04:08Z) - Attention Flows: Analyzing and Comparing Attention Mechanisms in
Language Models [5.866941279460248]
注意に基づく言語モデルにおける微調整を理解するための視覚分析手法を提案する。
私たちの視覚化であるAttention Flowsは、Transformerベースの言語モデルにおいて、レイヤ内のクエリ、トレース、関心の比較をサポートするように設計されています。
論文 参考訳(メタデータ) (2020-09-03T19:56:30Z) - Exploring Self-attention for Image Recognition [151.12000247183636]
画像認識における自己注意の2つの形態について考察する。
ひとつは、標準的なドット積の注意を一般化する、ペアワイズな自己注意である。
もう1つはパッチワイドな自己認識であり、畳み込みよりも厳格に強力です。
論文 参考訳(メタデータ) (2020-04-28T16:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。