論文の概要: Sparsity and Sentence Structure in Encoder-Decoder Attention of
Summarization Systems
- arxiv url: http://arxiv.org/abs/2109.03888v1
- Date: Wed, 8 Sep 2021 19:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-11 09:55:31.332314
- Title: Sparsity and Sentence Structure in Encoder-Decoder Attention of
Summarization Systems
- Title(参考訳): 要約システムのエンコーダ・デコーダ注意におけるスパーシティと文構造
- Authors: Potsawee Manakul, Mark J. F. Gales
- Abstract要約: トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。
これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。
この研究はトランスのエンコーダ・デコーダのアテンション機構に焦点を当てている。
- 参考スコア(独自算出の注目度): 38.672160430296536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have achieved state-of-the-art results in a wide range of
NLP tasks including summarization. Training and inference using large
transformer models can be computationally expensive. Previous work has focused
on one important bottleneck, the quadratic self-attention mechanism in the
encoder. Modified encoder architectures such as LED or LoBART use local
attention patterns to address this problem for summarization. In contrast, this
work focuses on the transformer's encoder-decoder attention mechanism. The cost
of this attention becomes more significant in inference or training approaches
that require model-generated histories. First, we examine the complexity of the
encoder-decoder attention. We demonstrate empirically that there is a sparse
sentence structure in document summarization that can be exploited by
constraining the attention mechanism to a subset of input sentences, whilst
maintaining system performance. Second, we propose a modified architecture that
selects the subset of sentences to constrain the encoder-decoder attention.
Experiments are carried out on abstractive summarization tasks, including
CNN/DailyMail, XSum, Spotify Podcast, and arXiv.
- Abstract(参考訳): トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。
大規模トランスフォーマーモデルを用いたトレーニングと推論は計算コストが高い。
これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。
LEDやLoBARTのような改良されたエンコーダアーキテクチャは、この問題に対処するために局所的な注意パターンを使用する。
対照的に、本研究はトランスフォーマのエンコーダ・デコーダの注意機構に焦点を当てている。
この注意のコストは、モデル生成履歴を必要とする推論やトレーニングアプローチにおいてより重要になります。
まず,エンコーダ・デコーダの注意の複雑さについて検討する。
文書要約にスパース文構造があることを実証的に証明し、注意機構を入力文のサブセットに制約し、システム性能を維持しながら活用できることを示した。
第二に,エンコーダ・デコーダの注意を制約する文のサブセットを選択するアーキテクチャを提案する。
CNN/DailyMail、XSum、Spotify Podcast、arXivなど、抽象的な要約タスクの実験が行われている。
関連論文リスト
- Efficient Sample-Specific Encoder Perturbations [37.84914870036184]
凍結基礎モデルのエンコーダ出力のサンプル・バイ・サンプル摂動を求めるために,小さなプロキシ・ネットワークが利用できることを示す。
その結果,COMET と WER で評価した性能は一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-05-01T08:55:16Z) - Take an Irregular Route: Enhance the Decoder of Time-Series Forecasting
Transformer [9.281993269355544]
本稿では,エンコーダとデコーダのボトムアップおよびトップダウンアーキテクチャを利用して,完全かつ合理的な階層を構築するためのFPPformerを提案する。
6つの最先端ベンチマークによる大規模な実験は、FPPformerの有望な性能を検証する。
論文 参考訳(メタデータ) (2023-12-10T06:50:56Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Hierarchical Attention Transformer Architecture For Syntactic Spell
Correction [1.0312968200748118]
従来の変圧器のマルチエンコーダと単一復号器のバリエーションを提案する。
CER, 単語(WER), 文(SER)の誤り率について, 0.11%, 0.32%, 0.69%の大幅な改善を報告した。
私たちのアーキテクチャも7.8倍高速で、次の最も正確なモデルに比べて1/3程度の大きさしかありません。
論文 参考訳(メタデータ) (2020-05-11T06:19:01Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。