論文の概要: ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention
- arxiv url: http://arxiv.org/abs/2203.12276v1
- Date: Wed, 23 Mar 2022 08:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 01:15:58.205861
- Title: ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention
- Title(参考訳): ERNIE-SPARSE:正規化自己認識による階層的効率変換器の学習
- Authors: Yang Liu, Jiaxiang Liu, Li Chen, Yuxiang Lu, Shikun Feng, Zhida Feng,
Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
- Abstract要約: 情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
- 参考スコア(独自算出の注目度): 48.697458429460184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Transformer has recently attracted a lot of attention since the
ability for reducing the quadratic dependency on the sequence length. We argue
that two factors, information bottleneck sensitivity and inconsistency between
different attention topologies, could affect the performance of the Sparse
Transformer. This paper proposes a well-designed model named ERNIE-Sparse. It
consists of two distinctive parts: (i) Hierarchical Sparse Transformer (HST) to
sequentially unify local and global information. (ii) Self-Attention
Regularization (SAR) method, a novel regularization designed to minimize the
distance for transformers with different attention topologies. To evaluate the
effectiveness of ERNIE-Sparse, we perform extensive evaluations. Firstly, we
perform experiments on a multi-modal long sequence modeling task benchmark,
Long Range Arena (LRA). Experimental results demonstrate that ERNIE-Sparse
significantly outperforms a variety of strong baseline methods including the
dense attention and other efficient sparse attention methods and achieves
improvements by 2.77% (57.78% vs. 55.01%). Secondly, to further show the
effectiveness of our method, we pretrain ERNIE-Sparse and verified it on 3 text
classification and 2 QA downstream tasks, achieve improvements on
classification benchmark by 0.83% (92.46% vs. 91.63%), on QA benchmark by 3.24%
(74.67% vs. 71.43%). Experimental results continue to demonstrate its superior
performance.
- Abstract(参考訳): Sparse Transformerは、最近、シーケンス長の二次依存性を減らす能力から、多くの注目を集めている。
我々は、情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼすと論じている。
本稿では,ERNIE-Sparseというモデルを提案する。
2つの特徴ある部分からなる。
(i)階層スパース変換器(HST)により、局所情報とグローバル情報を逐次統合する。
(II)SAR法(Self-Attention Regularization)は、異なる注意トポロジを持つ変圧器の距離を最小化する新しい正規化法である。
ERNIE-Sparseの有効性を評価するため,広範囲な評価を行った。
まず,マルチモーダル長周期モデリングタスクベンチマークであるLong Range Arena(LRA)について実験を行った。
実験の結果、アーニースパースは、密集した注意やその他の効率的なスパース注意法を含む様々な強力なベースライン法を著しく上回り、2.77%(57.78%対55.01%)の改善を達成した。
第2に,本手法の有効性をさらに示すため,ERNIE-Sparseを事前訓練し,3つのテキスト分類と2つのQAダウンストリームタスクで検証し,分類ベンチマークを0.83%(92.46%対91.63%)、QAベンチマークを3.24%(74.67%対71.43%)改善した。
実験結果は、その優れた性能を示し続けている。
関連論文リスト
- SLYKLatent, a Learning Framework for Facial Features Estimation [0.0]
SLYKLatentは、データセットの外観不安定性問題に対処することで、視線推定を向上するための新しいアプローチである。
ベンチマークデータセットの評価では,上位MPIIFaceGazeと競合するGaze360が8.7%向上し,ETH-XGazeのサブセットが13%向上した。
論文 参考訳(メタデータ) (2024-02-02T16:47:18Z) - Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image
Segmentation [98.90623605283564]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Transformer Uncertainty Estimation with Hierarchical Stochastic
Attention [8.95459272947319]
本稿では,変圧器に不確実性推定機能を持たせるための新しい手法を提案する。
これは、価値と学習可能なセントロイドのセットに付随する階層的な自己注意を学ぶことで達成される。
我々は、ドメイン内(ID)とドメイン外(OOD)の両方のデータセットを用いて、2つのテキスト分類タスクでモデルを実証的に評価する。
論文 参考訳(メタデータ) (2021-12-27T16:43:31Z) - New Perspective on Progressive GANs Distillation for One-class Novelty
Detection [21.90786581579228]
Thecoder-Decoder-Encoder scheme (EDE-GAN) に基づくジェネレーティブ・アドバイサル・ネットワークは最先端の性能を実現する。
新しい技術、P-KDGAN(Progressive Knowledge Distillation with GAN)は、設計された蒸留損失を通じて2つの標準GANを接続する。
2段階のプログレッシブ・ラーニングは、シングルステップ・アプローチよりも成績が向上し、学生のGANのパフォーマンスを継続的に向上させる。
論文 参考訳(メタデータ) (2021-09-15T13:45:30Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。