論文の概要: Unlimiformer: Long-Range Transformers with Unlimited Length Input
- arxiv url: http://arxiv.org/abs/2305.01625v3
- Date: Mon, 30 Oct 2023 19:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:53:23.609808
- Title: Unlimiformer: Long-Range Transformers with Unlimited Length Input
- Title(参考訳): アンリミフォーマ:アンリミット長入力長長変圧器
- Authors: Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley
- Abstract要約: Unlimiformerは、既存のトレーニング済みエンコーダ-デコーダ変換器をラップする一般的なアプローチである。
クロスアテンション計算をkNN(k-nearest-neighbor)インデックスにオフロードする。
Unlimiformerは、BookSumデータセットから500kのトークン長の入力を、テスト時に入力トランケーションなしで処理できることを示す。
- 参考スコア(独自算出の注目度): 67.04942180004805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the proposal of transformers, these models have been limited to bounded
input lengths, because of their need to attend to every token in the input. In
this work, we propose Unlimiformer: a general approach that wraps any existing
pretrained encoder-decoder transformer, and offloads the cross-attention
computation to a single k-nearest-neighbor (kNN) index, while the returned kNN
distances are the attention dot-product scores. This kNN index can be kept on
either the GPU or CPU memory and queried in sub-linear time; this way, we can
index practically unlimited input sequences, while every attention head in
every decoder layer retrieves its top-k keys, instead of attending to every
key. We evaluate Unlimiformer on several long-document and book-summarization
benchmarks, showing that it can process even 500k token-long inputs from the
BookSum dataset, without any input truncation at test time. We demonstrate that
Unlimiformer improves pretrained models such as BART and Longformer by
extending them to unlimited inputs without additional learned weights and
without modifying their code. We make our code and models publicly available at
https://github.com/abertsch72/unlimiformer .
- Abstract(参考訳): トランスの提案以来、これらのモデルは入力中の全てのトークンに出席する必要があるため、有界な入力長に限定されてきた。
本研究では,既存のトレーニング済みエンコーダデコーダ変換器をラップし,k-nearest-neighbor(kNN)インデックスにクロスアテンション計算をオフロードする一般手法であるUnlimiformerを提案する。
このkNNインデックスはGPUまたはCPUメモリのいずれかに保持され、サブ線形時間でクエリされる。この方法では、事実上無制限な入力シーケンスをインデックスすることができる。
いくつかの長期文書および書籍要約ベンチマークでUnlimiformerを評価し,BookSumデータセットから500kのトークン長入力を,テスト時に入力トランケーションなしで処理可能であることを示した。
我々は、Unlimiformerが、学習重量を増すことなく、コードを変更することなく無制限な入力に拡張することで、BARTやLongformerのような事前学習モデルを改善することを示した。
コードとモデルをhttps://github.com/abertsch72/unlimiformerで公開しています。
関連論文リスト
- Equipping Transformer with Random-Access Reading for Long-Context Understanding [9.433800833564279]
長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。
本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
論文 参考訳(メタデータ) (2024-05-21T21:41:07Z) - Skipformer: A Skip-and-Recover Strategy for Efficient Speech Recognition [7.963605445905696]
コンフォーマーに基づくアテンションモデルは、音声認識タスクの事実上のバックボーンモデルとなっている。
本研究では,Skipformer という名前の "Skip-and-Recover" Conformer アーキテクチャを提案する。
本モデルでは,Aishell-1の入力シーケンス長を31倍,Librispeech corpusの22倍に短縮する。
論文 参考訳(メタデータ) (2024-03-13T05:20:45Z) - Continuous-time Autoencoders for Regular and Irregular Time Series Imputation [21.25279298572273]
時系列計算は、時系列の最も基本的なタスクの1つである。
最近の自己注意に基づく手法は、最先端の計算性能を示している。
連続時間リカレントニューラルネットワークに基づく計算法の設計は,長年にわたって見過ごされてきた。
論文 参考訳(メタデータ) (2023-12-27T14:13:42Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文 参考訳(メタデータ) (2021-02-07T20:06:59Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z) - Pruning Neural Belief Propagation Decoders [77.237958592189]
本稿では,機械学習を用いたBPデコードに対して,過剰完全パリティチェック行列を調整する手法を提案する。
我々は,デコーダの複雑さを低減しつつ,0.27dB,1.5dBのML性能を実現する。
論文 参考訳(メタデータ) (2020-01-21T12:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。