論文の概要: Attentive Multi-Layer Perceptron for Non-autoregressive Generation
- arxiv url: http://arxiv.org/abs/2310.09512v1
- Date: Sat, 14 Oct 2023 06:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 20:06:11.476024
- Title: Attentive Multi-Layer Perceptron for Non-autoregressive Generation
- Title(参考訳): 非自己回帰生成のための注意型多層パーセプトロン
- Authors: Shuyang Jiang and Jun Zhang and Jiangtao Feng and Lin Zheng and
Lingpeng Kong
- Abstract要約: 非自己回帰(NAR)生成は、その効率性と有効性の増加で人気が高まる。
本稿では,線形時間と空間の複雑さを持つ生成モデルを生成するために,新しい変種textbfAttentive textbfMulti-textbfLayer textbfPerceptron(AMLP)を提案する。
- 参考スコア(独自算出の注目度): 46.14195464583495
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Autoregressive~(AR) generation almost dominates sequence generation for its
efficacy. Recently, non-autoregressive~(NAR) generation gains increasing
popularity for its efficiency and growing efficacy. However, its efficiency is
still bottlenecked by quadratic complexity in sequence lengths, which is
prohibitive for scaling to long sequence generation and few works have been
done to mitigate this problem. In this paper, we propose a novel MLP variant,
\textbf{A}ttentive \textbf{M}ulti-\textbf{L}ayer \textbf{P}erceptron~(AMLP), to
produce a generation model with linear time and space complexity. Different
from classic MLP with static and learnable projection matrices, AMLP leverages
adaptive projections computed from inputs in an attentive mode. The
sample-aware adaptive projections enable communications among tokens in a
sequence, and model the measurement between the query and key space.
Furthermore, we marry AMLP with popular NAR models, deriving a highly efficient
NAR-AMLP architecture with linear time and space complexity. Empirical results
show that such marriage architecture surpasses competitive efficient NAR
models, by a significant margin on text-to-speech synthesis and machine
translation. We also test AMLP's self- and cross-attention ability separately
with extensive ablation experiments, and find them comparable or even superior
to the other efficient models. The efficiency analysis further shows that AMLP
extremely reduces the memory cost against vanilla non-autoregressive models for
long sequences.
- Abstract(参考訳): 自己回帰~(AR)生成は、その効果のためにほとんどシーケンス生成を支配している。
近年,非自己回帰的〜(NAR)生成は効率性や有効性の向上で人気が高まっている。
しかし、その効率は、長いシーケンス生成へのスケーリングが禁じられているシークエンス長さの二次的な複雑さによっていまだボトルネックになっている。
本稿では,線形時間と空間の複雑さを持つ生成モデルを生成するために,新しい MLP 変種である \textbf{A}ttentive \textbf{M}ulti-\textbf{L}ayer \textbf{P}erceptron~(AMLP)を提案する。
静的および学習可能な射影行列を持つ古典的MLPとは異なり、AMLPは注意モードで入力から計算された適応射影を利用する。
サンプル対応適応プロジェクションは、シーケンス内のトークン間の通信を可能にし、クエリとキー空間の間の測定をモデル化する。
さらに、AMLPと一般的なNARモデルを組み合わせることにより、線形時間と空間の複雑さを持つ高効率なNAR-AMLPアーキテクチャを導出する。
このような結婚アーキテクチャは,テキスト音声合成と機械翻訳において,競争効率のよいNARモデルを上回ることが実証された。
また,AMLPの自己および横断的アテンション能力を広範囲にわたるアブレーション実験で別々にテストし,他の効率的なモデルに匹敵するか,さらに優れているかを見出した。
効率分析により、AMLPは長いシーケンスに対するバニラ非自己回帰モデルに対するメモリコストを著しく削減することが示された。
関連論文リスト
- Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues [32.783917920167205]
実あるいは複素線型対角線再帰と組み合わせることで、列列列マップの任意に正確な近似が導かれることを示す。
我々は、単位円盤付近で複雑な固有値(すなわち、S4で最も成功した戦略)を利用することが、情報を保存する上で、RNNに大いに役立つことを証明した。
論文 参考訳(メタデータ) (2023-07-21T20:09:06Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - MOI-Mixer: Improving MLP-Mixer with Multi Order Interactions in
Sequential Recommendation [40.20599070308035]
トランスフォーマーベースのモデルは、シーケンス長に2次記憶と時間の複雑さを必要とするため、ユーザの長期的関心を抽出することは困難である。
線形メモリと時間複雑性で有名なMLPベースのモデルは、最近、様々なタスクにおいてTransformerと比較して競合する結果を示した。
本稿では,レイヤのメモリと時間の複雑さを維持しながら,任意の順序のインタラクションを表現できる多階インタラクション層を提案する。
論文 参考訳(メタデータ) (2021-08-17T08:38:49Z) - Bayesian Inference in High-Dimensional Time-Serieswith the Orthogonal
Stochastic Linear Mixing Model [2.7909426811685893]
現代の時系列データセットの多くは、長期間にわたってサンプリングされた大量の出力応答変数を含んでいる。
本稿では,多種多様な大規模時系列データセット解析のための新しいマルコフ連鎖モンテカルロフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-25T01:12:54Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - An EM Approach to Non-autoregressive Conditional Sequence Generation [49.11858479436565]
自己回帰(AR)モデルは条件付きシーケンス生成において支配的なアプローチである。
非自己回帰(NAR)モデルは、最近、すべての出力トークンを並列に生成することでレイテンシを低減するために提案されている。
本稿では,ARモデルとNARモデルの両方を統合期待最大化フレームワークで協調的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T20:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。