論文の概要: ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention
- arxiv url: http://arxiv.org/abs/2203.12276v1
- Date: Wed, 23 Mar 2022 08:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 01:15:58.205861
- Title: ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention
- Title(参考訳): ERNIE-SPARSE:正規化自己認識による階層的効率変換器の学習
- Authors: Yang Liu, Jiaxiang Liu, Li Chen, Yuxiang Lu, Shikun Feng, Zhida Feng,
Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
- Abstract要約: 情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
- 参考スコア(独自算出の注目度): 48.697458429460184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Transformer has recently attracted a lot of attention since the
ability for reducing the quadratic dependency on the sequence length. We argue
that two factors, information bottleneck sensitivity and inconsistency between
different attention topologies, could affect the performance of the Sparse
Transformer. This paper proposes a well-designed model named ERNIE-Sparse. It
consists of two distinctive parts: (i) Hierarchical Sparse Transformer (HST) to
sequentially unify local and global information. (ii) Self-Attention
Regularization (SAR) method, a novel regularization designed to minimize the
distance for transformers with different attention topologies. To evaluate the
effectiveness of ERNIE-Sparse, we perform extensive evaluations. Firstly, we
perform experiments on a multi-modal long sequence modeling task benchmark,
Long Range Arena (LRA). Experimental results demonstrate that ERNIE-Sparse
significantly outperforms a variety of strong baseline methods including the
dense attention and other efficient sparse attention methods and achieves
improvements by 2.77% (57.78% vs. 55.01%). Secondly, to further show the
effectiveness of our method, we pretrain ERNIE-Sparse and verified it on 3 text
classification and 2 QA downstream tasks, achieve improvements on
classification benchmark by 0.83% (92.46% vs. 91.63%), on QA benchmark by 3.24%
(74.67% vs. 71.43%). Experimental results continue to demonstrate its superior
performance.
- Abstract(参考訳): Sparse Transformerは、最近、シーケンス長の二次依存性を減らす能力から、多くの注目を集めている。
我々は、情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼすと論じている。
本稿では,ERNIE-Sparseというモデルを提案する。
2つの特徴ある部分からなる。
(i)階層スパース変換器(HST)により、局所情報とグローバル情報を逐次統合する。
(II)SAR法(Self-Attention Regularization)は、異なる注意トポロジを持つ変圧器の距離を最小化する新しい正規化法である。
ERNIE-Sparseの有効性を評価するため,広範囲な評価を行った。
まず,マルチモーダル長周期モデリングタスクベンチマークであるLong Range Arena(LRA)について実験を行った。
実験の結果、アーニースパースは、密集した注意やその他の効率的なスパース注意法を含む様々な強力なベースライン法を著しく上回り、2.77%(57.78%対55.01%)の改善を達成した。
第2に,本手法の有効性をさらに示すため,ERNIE-Sparseを事前訓練し,3つのテキスト分類と2つのQAダウンストリームタスクで検証し,分類ベンチマークを0.83%(92.46%対91.63%)、QAベンチマークを3.24%(74.67%対71.43%)改善した。
実験結果は、その優れた性能を示し続けている。
関連論文リスト
- KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving [2.382388777981433]
本稿では, 自律走行における3次元物体検出の高速化を目的としたkan-RCBEVDepth法を提案する。
我々のユニークなBird’s Eye Viewベースのアプローチは、検出精度と効率を大幅に改善します。
コードはurlhttps://www.laitiamo.com/laitiamo/RCBEVDepth-KANでリリースされる。
論文 参考訳(メタデータ) (2024-08-04T16:54:49Z) - SegStitch: Multidimensional Transformer for Robust and Efficient Medical Imaging Segmentation [15.811141677039224]
最先端の手法、特にトランスフォーマーを利用した手法は、3Dセマンティックセグメンテーションにおいて顕著に採用されている。
しかし、局所的な特徴や計算の複雑さが無視されているため、普通の視覚変換器は困難に直面する。
本稿では,SegStitchを提案する。SegStitchは変圧器とODEブロックを結合した革新的なアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T12:05:02Z) - MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T08:57:23Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Transformer Uncertainty Estimation with Hierarchical Stochastic
Attention [8.95459272947319]
本稿では,変圧器に不確実性推定機能を持たせるための新しい手法を提案する。
これは、価値と学習可能なセントロイドのセットに付随する階層的な自己注意を学ぶことで達成される。
我々は、ドメイン内(ID)とドメイン外(OOD)の両方のデータセットを用いて、2つのテキスト分類タスクでモデルを実証的に評価する。
論文 参考訳(メタデータ) (2021-12-27T16:43:31Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。