Fugu-MT 論文翻訳(概要): Unlimiformer: Long-Range Transformers with Unlimited Length Input

論文の概要: Unlimiformer: Long-Range Transformers with Unlimited Length Input

arxiv url: http://arxiv.org/abs/2305.01625v1
Date: Tue, 2 May 2023 17:35:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-03 13:31:03.922137
Title: Unlimiformer: Long-Range Transformers with Unlimited Length Input
Title（参考訳）: アンリミフォーマ:アンリミット長入力長長変圧器
Authors: Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley
Abstract要約: Unlimiformerはすべてのレイヤの注意をひとつの$k$-nearest-neighborインデックスにオフロードする。 BookSumデータセットから350kのトークン長の入力を、テスト時に入力トランケーションなしでまとめることができる。
参考スコア（独自算出の注目度）: 74.49099146330413
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based models typically have a predefined bound to their input length, because of their need to potentially attend to every token in the input. In this work, we propose Unlimiformer: a general approach that can wrap any existing pretrained encoder-decoder transformer, and offload the attention computation across all layers to a single $k$-nearest-neighbor index; this index can be kept on either the GPU or CPU memory and queried in sub-linear time. This way, we can index extremely long input sequences, while every attention head in every decoder layer retrieves its top-$k$ keys, instead of attending to every key. We demonstrate Unlimiformers's efficacy on several long-document and multi-document summarization benchmarks, showing that it can summarize even 350k token-long inputs from the BookSum dataset, without any input truncation at test time. Unlimiformer improves pretrained models such as BART and Longformer by extending them to unlimited inputs without additional learned weights and without modifying their code. We make our code and models publicly available at https://github.com/abertsch72/unlimiformer .
Abstract（参考訳）: トランスフォーマーベースのモデルは通常、入力の長さに予め定義されたバウンドを持つ。本研究では,Unlimiformerを提案する。既存のトレーニング済みエンコーダ-デコーダ変換器をラップし,すべてのレイヤにアテンション計算をオフロードし,単一の$k$-nearest-neighborインデックスにすることで,このインデックスをGPUまたはCPUメモリに保持し,サブ線形時間でクエリすることができる。これにより、極端に長い入力シーケンスをインデックス化できますが、デコーダ層のすべての注意ヘッドは、すべてのキーに従うのではなく、トップ$k$キーを取得します。複数文書および複数文書の要約ベンチマークにおいてUnlimiformersの有効性を実証し,BookSumデータセットから350kのトークン長の入力を,テスト時に入力切り替わることなく要約できることを示した。 unlimiformerは、bartやlongformerのような事前学習されたモデルを改善し、追加の学習重みを必要とせず、コードを変更することなく、無制限の入力に拡張する。コードとモデルをhttps://github.com/abertsch72/unlimiformerで公開しています。

関連論文リスト

End-to-End Long Document Summarization using Gradient Caching [16.52198368672941]
長い文書要約のためのトランスフォーマーベースのエンコーダデコーダモデルを訓練することは大きな課題である。 CachED(Gradient $textbfCach$ing for $textbfE$ncoder-$textbfD$ecoder model)を提案する。
論文参考訳（メタデータ） (2025-01-03T13:32:57Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
Equipping Transformer with Random-Access Reading for Long-Context Understanding [9.433800833564279]
長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
論文参考訳（メタデータ） (2024-05-21T21:41:07Z)
Skipformer: A Skip-and-Recover Strategy for Efficient Speech Recognition [7.963605445905696]
コンフォーマーに基づくアテンションモデルは、音声認識タスクの事実上のバックボーンモデルとなっている。本研究では,Skipformer という名前の "Skip-and-Recover" Conformer アーキテクチャを提案する。本モデルでは,Aishell-1の入力シーケンス長を31倍,Librispeech corpusの22倍に短縮する。
論文参考訳（メタデータ） (2024-03-13T05:20:45Z)
Continuous-time Autoencoders for Regular and Irregular Time Series Imputation [21.25279298572273]
時系列計算は、時系列の最も基本的なタスクの1つである。最近の自己注意に基づく手法は、最先端の計算性能を示している。連続時間リカレントニューラルネットワークに基づく計算法の設計は,長年にわたって見過ごされてきた。
論文参考訳（メタデータ） (2023-12-27T14:13:42Z)
Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文参考訳（メタデータ） (2021-06-13T02:30:23Z)
Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文参考訳（メタデータ） (2021-05-27T09:27:42Z)
FSR: Accelerating the Inference Process of Transducer-Based Models by Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文参考訳（メタデータ） (2021-04-07T03:15:10Z)
Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。 Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。 GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文参考訳（メタデータ） (2021-02-07T20:06:59Z)
Learning to Encode Position for Transformer with Continuous Dynamical Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文参考訳（メタデータ） (2020-03-13T00:41:41Z)
Pruning Neural Belief Propagation Decoders [77.237958592189]
本稿では,機械学習を用いたBPデコードに対して,過剰完全パリティチェック行列を調整する手法を提案する。我々は,デコーダの複雑さを低減しつつ,0.27dB,1.5dBのML性能を実現する。
論文参考訳（メタデータ） (2020-01-21T12:05:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。