論文の概要: Investigating Efficiently Extending Transformers for Long Input
Summarization
- arxiv url: http://arxiv.org/abs/2208.04347v1
- Date: Mon, 8 Aug 2022 18:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:34:02.617412
- Title: Investigating Efficiently Extending Transformers for Long Input
Summarization
- Title(参考訳): 長期入力要約のための効率的な拡張変換器の検討
- Authors: Jason Phang, Yao Zhao, Peter J. Liu
- Abstract要約: 本稿では,アーキテクチャ変更と事前学習のパラダイムが,長期入力の要約のために,事前学習したトランスフォーマを最も効率的に適用できるかを検討する。
我々は,グローバルトークンを持つブロックローカルトランスフォーマーは,性能と効率のバランスが良いことを見出した。
PEGモデルの拡張であるPEG-Xを導入し、入力を最大16Kのトークンで処理する。
- 参考スコア(独自算出の注目度): 37.622021824791254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large pretrained Transformer models have proven highly capable at
tackling natural language tasks, handling long sequence inputs continues to be
a significant challenge. One such task is long input summarization, where
inputs are longer than the maximum input context of most pretrained models.
Through an extensive set of experiments, we investigate what model
architectural changes and pretraining paradigms can most efficiently adapt a
pretrained Transformer for long input summarization. We find that a staggered,
block-local Transformer with global encoder tokens strikes a good balance of
performance and efficiency, and that an additional pretraining phase on long
sequences meaningfully improves downstream summarization performance. Based on
our findings, we introduce PEGASUS-X, an extension of the PEGASUS model with
additional long input pretraining to handle inputs of up to 16K tokens.
PEGASUS-X achieves strong performance on long input summarization tasks
comparable with much larger models while adding few additional parameters and
not requiring model parallelism to train.
- Abstract(参考訳): 大規模な事前訓練されたTransformerモデルは自然言語処理に高い能力があることが証明されているが、長いシーケンス入力の処理は依然として重要な課題である。
そのようなタスクの1つは、多くの事前学習されたモデルの最大入力コンテキストよりも長い入力の要約である。
大規模実験を通じて,事前学習されたトランスフォーマーを長大な入力要約に最も効率的に適用できるモデルのアーキテクチャ変化と事前学習パラダイムについて検討する。
我々は,グローバルエンコーダトークンを持つスタッガー型ブロックローカルトランスフォーマーが性能と効率のバランスを良好に保ち,長い列の事前学習が下流の要約性能を有意義に改善することを発見した。
PEGASUS-XはPEGASUSモデルの拡張であり,最大16Kトークンの入力を処理するために,追加の長入力事前トレーニングを行う。
PEGASUS-Xは、非常に大きなモデルに匹敵する長い入力の要約タスクにおいて強力な性能を達成し、追加のパラメータは少なく、訓練にモデルの並列性を必要としない。
関連論文リスト
- Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - CoLT5: Faster Long-Range Transformers with Conditional Computation [65.83586041097763]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。
CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文 参考訳(メタデータ) (2023-03-17T03:28:17Z) - Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis [12.269318291685753]
単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。
単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
論文 参考訳(メタデータ) (2023-02-07T21:51:05Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。