論文の概要: Long-Span Dependencies in Transformer-based Summarization Systems
- arxiv url: http://arxiv.org/abs/2105.03801v1
- Date: Sat, 8 May 2021 23:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:03:38.830840
- Title: Long-Span Dependencies in Transformer-based Summarization Systems
- Title(参考訳): 変圧器を用いた要約システムの長寿命依存性
- Authors: Potsawee Manakul and Mark J. F. Gales
- Abstract要約: トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。
これらのトランスベースのモデルの1つの問題は、入力長が増加するにつれてメモリと計算要件の点でうまくスケールしないことである。
本研究では,事前学習された大規模トランスフォーマーモデルを用いて,抽象的要約における長大な依存関係に対処する。
- 参考スコア(独自算出の注目度): 38.672160430296536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have achieved state-of-the-art results in a wide
range of natural language processing (NLP) tasks including document
summarization. Typically these systems are trained by fine-tuning a large
pre-trained model to the target task. One issue with these transformer-based
models is that they do not scale well in terms of memory and compute
requirements as the input length grows. Thus, for long document summarization,
it can be challenging to train or fine-tune these models. In this work, we
exploit large pre-trained transformer-based models and address long-span
dependencies in abstractive summarization using two methods: local
self-attention; and explicit content selection. These approaches are compared
on a range of network configurations. Experiments are carried out on standard
long-span summarization tasks, including Spotify Podcast, arXiv, and PubMed
datasets. We demonstrate that by combining these methods, we can achieve
state-of-the-art results on all three tasks in the ROUGE scores. Moreover,
without a large-scale GPU card, our approach can achieve comparable or better
results than existing approaches.
- Abstract(参考訳): トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。
通常、これらのシステムは、ターゲットタスクに訓練済みの大きなモデルを微調整することで訓練される。
これらのトランスフォーマーベースのモデルの1つの問題は、入力長が大きくなるにつれて、メモリと計算要求の面でうまくスケールしないことである。
したがって、長い文書要約では、これらのモデルの訓練や微調整が難しい場合がある。
本研究では,大規模な事前学習型トランスフォーマーモデルを用いて,局所的自己意識と明示的コンテンツ選択という2つの手法を用いて,抽象的要約における長期依存性に対処する。
これらのアプローチは、さまざまなネットワーク構成で比較される。
Spotify Podcast、arXiv、PubMedデータセットなど、標準的な長期の要約タスクで実験が行われる。
これらの手法を組み合わせることで,ROUGEスコアの3つのタスクすべてに対して,最先端の成果が得られることを示す。
さらに,大規模なgpuカードがなければ,既存のアプローチと同等あるいは優れた結果が得られる。
関連論文リスト
- Jaeger: A Concatenation-Based Multi-Transformer VQA Model [0.13654846342364307]
文書に基づく視覚質問応答は,言語感覚の曖昧さと細粒度マルチモーダル検索の間に難しい課題を生じさせる。
本稿では,結合型マルチトランスVQAモデルであるJaegarを提案する。
我々のアプローチは、結合によってこれらのモデルの性能を増幅する可能性がある。
論文 参考訳(メタデータ) (2023-10-11T00:14:40Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies [0.0]
既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。
次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。
大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:47:31Z) - Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis [12.269318291685753]
単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。
単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
論文 参考訳(メタデータ) (2023-02-07T21:51:05Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。