論文の概要: Unlimiformer: Long-Range Transformers with Unlimited Length Input
- arxiv url: http://arxiv.org/abs/2305.01625v1
- Date: Tue, 2 May 2023 17:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:31:03.922137
- Title: Unlimiformer: Long-Range Transformers with Unlimited Length Input
- Title(参考訳): アンリミフォーマ:アンリミット長入力長長変圧器
- Authors: Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley
- Abstract要約: Unlimiformerはすべてのレイヤの注意をひとつの$k$-nearest-neighborインデックスにオフロードする。
BookSumデータセットから350kのトークン長の入力を、テスト時に入力トランケーションなしでまとめることができる。
- 参考スコア(独自算出の注目度): 74.49099146330413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models typically have a predefined bound to their input
length, because of their need to potentially attend to every token in the
input. In this work, we propose Unlimiformer: a general approach that can wrap
any existing pretrained encoder-decoder transformer, and offload the attention
computation across all layers to a single $k$-nearest-neighbor index; this
index can be kept on either the GPU or CPU memory and queried in sub-linear
time. This way, we can index extremely long input sequences, while every
attention head in every decoder layer retrieves its top-$k$ keys, instead of
attending to every key. We demonstrate Unlimiformers's efficacy on several
long-document and multi-document summarization benchmarks, showing that it can
summarize even 350k token-long inputs from the BookSum dataset, without any
input truncation at test time. Unlimiformer improves pretrained models such as
BART and Longformer by extending them to unlimited inputs without additional
learned weights and without modifying their code. We make our code and models
publicly available at https://github.com/abertsch72/unlimiformer .
- Abstract(参考訳): トランスフォーマーベースのモデルは通常、入力の長さに予め定義されたバウンドを持つ。
本研究では,Unlimiformerを提案する。既存のトレーニング済みエンコーダ-デコーダ変換器をラップし,すべてのレイヤにアテンション計算をオフロードし,単一の$k$-nearest-neighborインデックスにすることで,このインデックスをGPUまたはCPUメモリに保持し,サブ線形時間でクエリすることができる。
これにより、極端に長い入力シーケンスをインデックス化できますが、デコーダ層のすべての注意ヘッドは、すべてのキーに従うのではなく、トップ$k$キーを取得します。
複数文書および複数文書の要約ベンチマークにおいてUnlimiformersの有効性を実証し,BookSumデータセットから350kのトークン長の入力を,テスト時に入力切り替わることなく要約できることを示した。
unlimiformerは、bartやlongformerのような事前学習されたモデルを改善し、追加の学習重みを必要とせず、コードを変更することなく、無制限の入力に拡張する。
コードとモデルをhttps://github.com/abertsch72/unlimiformerで公開しています。
関連論文リスト
- Equipping Transformer with Random-Access Reading for Long-Context Understanding [9.433800833564279]
長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。
本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
論文 参考訳(メタデータ) (2024-05-21T21:41:07Z) - Skipformer: A Skip-and-Recover Strategy for Efficient Speech Recognition [7.963605445905696]
コンフォーマーに基づくアテンションモデルは、音声認識タスクの事実上のバックボーンモデルとなっている。
本研究では,Skipformer という名前の "Skip-and-Recover" Conformer アーキテクチャを提案する。
本モデルでは,Aishell-1の入力シーケンス長を31倍,Librispeech corpusの22倍に短縮する。
論文 参考訳(メタデータ) (2024-03-13T05:20:45Z) - Continuous-time Autoencoders for Regular and Irregular Time Series Imputation [21.25279298572273]
時系列計算は、時系列の最も基本的なタスクの1つである。
最近の自己注意に基づく手法は、最先端の計算性能を示している。
連続時間リカレントニューラルネットワークに基づく計算法の設計は,長年にわたって見過ごされてきた。
論文 参考訳(メタデータ) (2023-12-27T14:13:42Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文 参考訳(メタデータ) (2021-02-07T20:06:59Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z) - Pruning Neural Belief Propagation Decoders [77.237958592189]
本稿では,機械学習を用いたBPデコードに対して,過剰完全パリティチェック行列を調整する手法を提案する。
我々は,デコーダの複雑さを低減しつつ,0.27dB,1.5dBのML性能を実現する。
論文 参考訳(メタデータ) (2020-01-21T12:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。