Fugu-MT 論文翻訳(概要): Sparsity and Sentence Structure in Encoder-Decoder Attention of Summarization Systems

論文の概要: Sparsity and Sentence Structure in Encoder-Decoder Attention of Summarization Systems

arxiv url: http://arxiv.org/abs/2109.03888v1
Date: Wed, 8 Sep 2021 19:32:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-11 09:55:31.332314
Title: Sparsity and Sentence Structure in Encoder-Decoder Attention of Summarization Systems
Title（参考訳）: 要約システムのエンコーダ・デコーダ注意におけるスパーシティと文構造
Authors: Potsawee Manakul, Mark J. F. Gales
Abstract要約: トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。この研究はトランスのエンコーダ・デコーダのアテンション機構に焦点を当てている。
参考スコア（独自算出の注目度）: 38.672160430296536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer models have achieved state-of-the-art results in a wide range of NLP tasks including summarization. Training and inference using large transformer models can be computationally expensive. Previous work has focused on one important bottleneck, the quadratic self-attention mechanism in the encoder. Modified encoder architectures such as LED or LoBART use local attention patterns to address this problem for summarization. In contrast, this work focuses on the transformer's encoder-decoder attention mechanism. The cost of this attention becomes more significant in inference or training approaches that require model-generated histories. First, we examine the complexity of the encoder-decoder attention. We demonstrate empirically that there is a sparse sentence structure in document summarization that can be exploited by constraining the attention mechanism to a subset of input sentences, whilst maintaining system performance. Second, we propose a modified architecture that selects the subset of sentences to constrain the encoder-decoder attention. Experiments are carried out on abstractive summarization tasks, including CNN/DailyMail, XSum, Spotify Podcast, and arXiv.
Abstract（参考訳）: トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。大規模トランスフォーマーモデルを用いたトレーニングと推論は計算コストが高い。これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。 LEDやLoBARTのような改良されたエンコーダアーキテクチャは、この問題に対処するために局所的な注意パターンを使用する。対照的に、本研究はトランスフォーマのエンコーダ・デコーダの注意機構に焦点を当てている。この注意のコストは、モデル生成履歴を必要とする推論やトレーニングアプローチにおいてより重要になります。まず,エンコーダ・デコーダの注意の複雑さについて検討する。文書要約にスパース文構造があることを実証的に証明し、注意機構を入力文のサブセットに制約し、システム性能を維持しながら活用できることを示した。第二に,エンコーダ・デコーダの注意を制約する文のサブセットを選択するアーキテクチャを提案する。 CNN/DailyMail、XSum、Spotify Podcast、arXivなど、抽象的な要約タスクの実験が行われている。

関連論文リスト

$ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文参考訳（メタデータ） (2024-10-05T08:27:53Z)
Efficient Sample-Specific Encoder Perturbations [37.84914870036184]
凍結基礎モデルのエンコーダ出力のサンプル・バイ・サンプル摂動を求めるために,小さなプロキシ・ネットワークが利用できることを示す。その結果,COMET と WER で評価した性能は一貫した改善が見られた。
論文参考訳（メタデータ） (2024-05-01T08:55:16Z)
Take an Irregular Route: Enhance the Decoder of Time-Series Forecasting Transformer [9.281993269355544]
本稿では,エンコーダとデコーダのボトムアップおよびトップダウンアーキテクチャを利用して,完全かつ合理的な階層を構築するためのFPPformerを提案する。 6つの最先端ベンチマークによる大規模な実験は、FPPformerの有望な性能を検証する。
論文参考訳（メタデータ） (2023-12-10T06:50:56Z)
Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文参考訳（メタデータ） (2023-04-08T15:44:29Z)
Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文参考訳（メタデータ） (2022-07-22T17:52:30Z)
ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T06:26:29Z)
Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文参考訳（メタデータ） (2020-10-07T21:02:41Z)
Hierarchical Attention Transformer Architecture For Syntactic Spell Correction [1.0312968200748118]
従来の変圧器のマルチエンコーダと単一復号器のバリエーションを提案する。 CER, 単語(WER), 文(SER)の誤り率について, 0.11%, 0.32%, 0.69%の大幅な改善を報告した。私たちのアーキテクチャも7.8倍高速で、次の最も正確なモデルに比べて1/3程度の大きさしかありません。
論文参考訳（メタデータ） (2020-05-11T06:19:01Z)
Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文参考訳（メタデータ） (2020-02-24T13:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。