論文の概要: Longformer: The Long-Document Transformer
- arxiv url: http://arxiv.org/abs/2004.05150v2
- Date: Wed, 2 Dec 2020 17:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 21:04:26.344010
- Title: Longformer: The Long-Document Transformer
- Title(参考訳): Longformer: Long-Document Transformer
- Authors: Iz Beltagy and Matthew E. Peters and Arman Cohan
- Abstract要約: トランスフォーマーベースのモデルでは、シーケンス長と2次スケールの自己アテンション操作のため、長いシーケンスを処理できない。
我々はLongformerを導入し、シーケンス長と線形にスケールするアテンション機構を導入し、何千ものトークンの文書を簡単に処理できるようにした。
Longformerのアテンションメカニズムは、標準的な自己アテンションをドロップインで置き換えることであり、ローカルなウインドウのアテンションと、グローバルなアテンションを動機付けるタスクを組み合わせたものである。
- 参考スコア(独自算出の注目度): 40.18988262517733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models are unable to process long sequences due to their
self-attention operation, which scales quadratically with the sequence length.
To address this limitation, we introduce the Longformer with an attention
mechanism that scales linearly with sequence length, making it easy to process
documents of thousands of tokens or longer. Longformer's attention mechanism is
a drop-in replacement for the standard self-attention and combines a local
windowed attention with a task motivated global attention. Following prior work
on long-sequence transformers, we evaluate Longformer on character-level
language modeling and achieve state-of-the-art results on text8 and enwik8. In
contrast to most prior work, we also pretrain Longformer and finetune it on a
variety of downstream tasks. Our pretrained Longformer consistently outperforms
RoBERTa on long document tasks and sets new state-of-the-art results on WikiHop
and TriviaQA. We finally introduce the Longformer-Encoder-Decoder (LED), a
Longformer variant for supporting long document generative sequence-to-sequence
tasks, and demonstrate its effectiveness on the arXiv summarization dataset.
- Abstract(参考訳): トランスフォーマーベースのモデルでは、シーケンス長と2次スケールの自己アテンション操作のため、長いシーケンスを処理できない。
この制限に対処するために,配列長と線形にスケールするアテンション機構を備えたlongformerを導入することで,数千以上のトークンのドキュメントの処理が容易になる。
Longformerのアテンションメカニズムは、標準的な自己アテンションをドロップインで置き換えることであり、ローカルウィンドウアテンションとグローバルアテンションを動機付けるタスクを組み合わせる。
長周期変換器の先行研究に続いて,文字レベルの言語モデル上でLongformerを評価し,text8 と enwik8 で最先端の結果を得る。
以前の作業とは対照的に、Longformerを事前訓練し、さまざまな下流タスクで微調整します。
我々の事前学習したLongformerは、長いドキュメントタスクでRoBERTaを一貫して上回り、WikiHopとTriviaQAで最新の結果を設定します。
最終的に、Longformer-Encoder-Decoder (LED) を導入し、arXivの要約データセット上で、長文生成シーケンス・シーケンスタスクをサポートするLongformer variantを紹介した。
関連論文リスト
- LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。