論文の概要: On Sparsifying Encoder Outputs in Sequence-to-Sequence Models
- arxiv url: http://arxiv.org/abs/2004.11854v1
- Date: Fri, 24 Apr 2020 16:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 03:33:50.439633
- Title: On Sparsifying Encoder Outputs in Sequence-to-Sequence Models
- Title(参考訳): シーケンス・ツー・シーケンスモデルにおけるスペーシングエンコーダ出力について
- Authors: Biao Zhang, Ivan Titov, Rico Sennrich
- Abstract要約: 我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
- 参考スコア(独自算出の注目度): 90.58793284654692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-to-sequence models usually transfer all encoder outputs to the
decoder for generation. In this work, by contrast, we hypothesize that these
encoder outputs can be compressed to shorten the sequence delivered for
decoding. We take Transformer as the testbed and introduce a layer of
stochastic gates in-between the encoder and the decoder. The gates are
regularized using the expected value of the sparsity-inducing L0penalty,
resulting in completely masking-out a subset of encoder outputs. In other
words, via joint training, the L0DROP layer forces Transformer to route
information through a subset of its encoder states. We investigate the effects
of this sparsification on two machine translation and two summarization tasks.
Experiments show that, depending on the task, around 40-70% of source encodings
can be pruned without significantly compromising quality. The decrease of the
output length endows L0DROP with the potential of improving decoding
efficiency, where it yields a speedup of up to 1.65x on document summarization
tasks against the standard Transformer. We analyze the L0DROP behaviour and
observe that it exhibits systematic preferences for pruning certain word types,
e.g., function words and punctuation get pruned most. Inspired by these
observations, we explore the feasibility of specifying rule-based patterns that
mask out encoder outputs based on information such as part-of-speech tags, word
frequency and word position.
- Abstract(参考訳): シーケンス列モデルは通常、全てのエンコーダ出力をデコーダに転送して生成する。
対照的に本研究では,これらのエンコーダ出力を圧縮してデコードに必要なシーケンスを短縮できると仮定する。
我々はTransformerをテストベッドとし、エンコーダとデコーダの間にある確率ゲートの層を導入する。
ゲートはスペーサ誘導L0ペナルティの期待値を使って正規化され、エンコーダ出力のサブセットを完全にマスキングする。
言い換えれば、共同トレーニングを通じて、L0DROP層はTransformerにエンコーダ状態のサブセットを通して情報をルーティングするよう強制する。
このスパーシフィケーションが2つの機械翻訳と2つの要約タスクに与える影響について検討する。
実験の結果,ソースコードの40~70%は品質を著しく損なうことなく切断できることがわかった。
出力長エンドウ l0drop の低下により復号効率が向上し、標準変圧器に対する文書要約タスクにおいて最大1.65倍の高速化が得られる。
我々は,L0DROPの振る舞いを分析し,特定の単語の種類,例えば関数語や句読点が最も多く刈り取られるという,体系的な嗜好を示す。
これらの観察から着想を得て,音声タグや単語頻度,単語位置などの情報に基づいて,エンコーダ出力を隠蔽する規則に基づくパターンの特定の可能性を検討する。
関連論文リスト
- Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Efficient Encoders for Streaming Sequence Tagging [13.692806815196077]
ストリーミングシーケンスタギングのための最先端双方向エンコーダの単純適用には、インクリメンタルストリーミング入力(書き起こし音声など)において、新しいトークンごとにスクラッチから各トークンをエンコードする必要がある。
以前の計算の再利用性の欠如により、浮動小数点演算(FLOP)の数が増加し、不要なラベルフリップの数が増加した。
オフライン(あるいは完全)入力上で双方向エンコーダの性能を維持しながら,これらの問題に対処するHEAR(Adaptive Restart)を提案する。
論文 参考訳(メタデータ) (2023-01-23T02:20:39Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - A Generative Approach to Titling and Clustering Wikipedia Sections [12.154365109117025]
我々は、ウィキペディア記事のセクションヘッダ生成という新たなタスクを通じて、情報組織のための様々なデコーダを用いたトランスフォーマーエンコーダを評価する。
分析の結果,符号化器の出力に対する注意機構を含むデコーダは,抽出テキストを生成することで高いスコア付け結果が得られることがわかった。
注意のないデコーダはセマンティックエンコーディングを容易にし、セクション埋め込みを生成するのに使うことができる。
論文 参考訳(メタデータ) (2020-05-22T14:49:07Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - Pseudo-Bidirectional Decoding for Local Sequence Transduction [31.05704333618685]
LSTタスクに対してPseudo-Bidirectional Decoding (PBD) というシンプルなアプローチを提案する。
提案したPBDアプローチはデコーダの右サイドコンテキスト情報を提供し、LSTタスクの帰納バイアスをモデル化する。
いくつかのベンチマークデータセットによる実験結果から,LSTタスク上での標準Seq2seqモデルの性能は一貫して向上することが示された。
論文 参考訳(メタデータ) (2020-01-31T07:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。