論文の概要: LongT5: Efficient Text-To-Text Transformer for Long Sequences
- arxiv url: http://arxiv.org/abs/2112.07916v1
- Date: Wed, 15 Dec 2021 06:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 00:14:55.511631
- Title: LongT5: Efficient Text-To-Text Transformer for Long Sequences
- Title(参考訳): LongT5:ロングシーケンスのための効率的なテキストからテキストへの変換
- Authors: Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni,
Yun-Hsuan Sung, Yinfei Yang
- Abstract要約: 我々はLongT5と呼ばれる新しいモデルを提案し、入力長とモデルサイズの両方を同時にスケーリングする効果について検討する。
いくつかの要約タスクでは最先端の結果が得られ、質問応答タスクでは元のT5モデルよりも優れています。
- 参考スコア(独自算出の注目度): 8.743996838160825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that either (1) increasing the input length or (2)
increasing model size can improve the performance of Transformer-based neural
models. In this paper, we present a new model, called LongT5, with which we
explore the effects of scaling both the input length and model size at the same
time. Specifically, we integrated attention ideas from long-input transformers
(ETC), and adopted pre-training strategies from summarization pre-training
(PEGASUS) into the scalable T5 architecture. The result is a new attention
mechanism we call {\em Transient Global} (TGlobal), which mimics ETC's
local/global attention mechanism, but without requiring additional side-inputs.
We are able to achieve state-of-the-art results on several summarization tasks
and outperform the original T5 models on question answering tasks.
- Abstract(参考訳): 近年の研究では,(1)入力長の増大,(2)モデルサイズの増加がトランスフォーマーベースニューラルモデルの性能を向上させることが示されている。
本稿では,LongT5と呼ばれる新しいモデルを提案し,入力長とモデルサイズを同時にスケーリングする効果について検討する。
具体的には, 長入力トランスフォーマー (etc) から注目されるアイデアを統合し, 要約事前学習 (pegasus) からスケーラブルなt5アーキテクチャへの事前学習戦略を採用した。
結果として、私たちが"em transient global} (tglobal)"と呼ぶ新しいアテンションメカニズムが生まれました。これはetのローカル/グローバルアテンションメカニズムを模倣したものですが、追加のサイドインプットは必要ありません。
いくつかの要約タスクで最先端の結果を達成でき、質問応答タスクで元のt5モデルよりも優れています。
関連論文リスト
- Weighted Grouped Query Attention in Transformers [0.0]
Weighted Grouped-Query Attention (WGQA) と呼ばれるグループクエリ注意のバリエーションを提案する。
我々は,T5デコーダのアテンションブロックにおいて,各キーと値のヘッダに対して新たな学習可能なパラメータを導入し,微調整中に重み付き平均値を取ることを可能にする。
本モデルでは,GQAよりも平均0.53%改善し,推定時のオーバーヘッドを伴わず,従来のマルチヘッドアテンション(MHA)に収束する。
論文 参考訳(メタデータ) (2024-07-15T16:07:13Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Attention Alignment and Flexible Positional Embeddings Improve
Transformer Length Extrapolation [61.305218287797025]
理想的な長伸長トランスフォーマー言語モデルは、微調整なしでトレーニング長よりも長いシーケンスを処理できる。
T5ファミリーは、位置埋め込みがリッチでフレキシブルな注意パターンを捉えているので、よりよく見るべきである。
この問題を軽減するために,温度スケーリングによる2つのアライメント戦略を提案する。
論文 参考訳(メタデータ) (2023-11-01T17:43:35Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Model-Generated Pretraining Signals Improves Zero-Shot Generalization of
Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。
我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。
その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文 参考訳(メタデータ) (2023-05-21T21:06:23Z) - Investigating Efficiently Extending Transformers for Long Input
Summarization [37.622021824791254]
本稿では,アーキテクチャ変更と事前学習のパラダイムが,長期入力の要約のために,事前学習したトランスフォーマを最も効率的に適用できるかを検討する。
我々は,グローバルトークンを持つブロックローカルトランスフォーマーは,性能と効率のバランスが良いことを見出した。
PEGモデルの拡張であるPEG-Xを導入し、入力を最大16Kのトークンで処理する。
論文 参考訳(メタデータ) (2022-08-08T18:10:58Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Longformer: The Long-Document Transformer [40.18988262517733]
トランスフォーマーベースのモデルでは、シーケンス長と2次スケールの自己アテンション操作のため、長いシーケンスを処理できない。
我々はLongformerを導入し、シーケンス長と線形にスケールするアテンション機構を導入し、何千ものトークンの文書を簡単に処理できるようにした。
Longformerのアテンションメカニズムは、標準的な自己アテンションをドロップインで置き換えることであり、ローカルなウインドウのアテンションと、グローバルなアテンションを動機付けるタスクを組み合わせたものである。
論文 参考訳(メタデータ) (2020-04-10T17:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。