論文の概要: LOCOST: State-Space Models for Long Document Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2401.17919v2
- Date: Wed, 6 Mar 2024 09:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:36:42.675247
- Title: LOCOST: State-Space Models for Long Document Abstractive Summarization
- Title(参考訳): LOCOST:長期文書要約のための状態空間モデル
- Authors: Florian Le Bronnec, Song Duong, Mathieu Ravaut, Alexandre Allauzen,
Nancy F. Chen, Vincent Guigue, Alberto Lumbreras, Laure Soulier, Patrick
Gallinari
- Abstract要約: 長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
- 参考スコア(独自算出の注目度): 78.85438991894253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-space models are a low-complexity alternative to transformers for
encoding long sequences and capturing long-term dependencies. We propose
LOCOST: an encoder-decoder architecture based on state-space models for
conditional text generation with long context inputs. With a computational
complexity of $O(L \log L)$, this architecture can handle significantly longer
sequences than state-of-the-art models that are based on sparse attention
patterns. We evaluate our model on a series of long document abstractive
summarization tasks. The model reaches a performance level that is 93-96%
comparable to the top-performing sparse transformers of the same size while
saving up to 50% memory during training and up to 87% during inference.
Additionally, LOCOST effectively handles input texts exceeding 600K tokens at
inference time, setting new state-of-the-art results on full-book summarization
and opening new perspectives for long input processing.
- Abstract(参考訳): 状態空間モデルは、長いシーケンスをエンコードし、長期的な依存関係をキャプチャするトランスフォーマーに代わる低複雑さである。
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L \log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
我々は,一連の長い文書要約タスクでモデルを評価する。
このモデルは、トレーニング中に最大50%のメモリを節約し、推論時に最大87%のメモリを節約しながら、同じサイズのトップパフォーマンスのスパーストランスフォーマに匹敵する93-96%のパフォーマンスレベルに達する。
さらにlocostは、推論時に600万トークンを超える入力テキストを効果的に処理し、フルブック要約で最新結果を設定し、長い入力処理のための新しい視点を開く。
関連論文リスト
- Training-Free Long-Context Scaling of Large Language Models [120.27629784425274]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - The Bigger the Better? Rethinking the Effective Model Scale in Long-term
Time Series Forecasting [57.00348861248051]
時系列予測は時系列分析において重要なフロンティアである。
階層的な分解で拡張された軽量トランスフォーマーであるHDformerを紹介する。
HDformerは既存のLTSFモデルよりも優れており、パラメータは99%以上少ない。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - VAULT: VAriable Unified Long Text Representation for Machine Reading
Comprehension [31.639069657951747]
機械読取の既存のモデルは、段落表現と分類で長いテキストをモデル化するために複雑なモデルアーキテクチャを必要とする。
長文入力からの文脈化表現に基づく,MDC の軽量かつ並列効率なパラメタ表現 VAULT を提案する。
論文 参考訳(メタデータ) (2021-05-07T13:03:43Z) - SEAL: Segment-wise Extractive-Abstractive Long-form Text Summarization [39.85688193525843]
入力シーケンス長を最大10万トークン,出力シーケンス長を最大768トークンとするシーケンス・ツー・シーケンスについて検討した。
入力スニペットを動的に抽出・選択し,各出力セグメントに疎通する,新しいエンコーダ・デコーダを特徴とするトランスフォーマーベースモデルSEALを提案する。
SEALモデルは、既存の長文要約タスクの最先端結果を実現し、私たちが導入した新しいデータセット/タスクであるSearch2Wikiにおいて、はるかに長い入力テキストで強力なベースラインモデルより優れている。
論文 参考訳(メタデータ) (2020-06-18T00:13:21Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。