論文の概要: A Length-Extrapolatable Transformer
- arxiv url: http://arxiv.org/abs/2212.10554v1
- Date: Tue, 20 Dec 2022 18:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:05:31.985242
- Title: A Length-Extrapolatable Transformer
- Title(参考訳): 長寿命変圧器
- Authors: Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang, Alon
Benhaim, Vishrav Chaudhary, Xia Song, Furu Wei
- Abstract要約: 長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
- 参考スコア(独自算出の注目度): 98.54835576985664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Position modeling plays a critical role in Transformers. In this paper, we
focus on length extrapolation, i.e., training on short texts while evaluating
longer sequences. We define attention resolution as an indicator of
extrapolation. Then we propose two designs to improve the above metric of
Transformers. Specifically, we introduce a relative position embedding to
explicitly maximize attention resolution. Moreover, we use blockwise causal
attention during inference for better resolution. We evaluate different
Transformer variants with language modeling. Experimental results show that our
model achieves strong performance in both interpolation and extrapolation
settings. The code will be available at https://aka.ms/LeX-Transformer.
- Abstract(参考訳): 位置モデリングはトランスフォーマーにおいて重要な役割を果たす。
本稿では,長さ外挿,すなわち短いテキストのトレーニングに焦点をあて,長いシーケンスの評価を行う。
我々は注意の解決を外挿の指標として定義する。
次に,上述の変圧器の計量を改善するための2つの設計を提案する。
具体的には,注意解決を明示的に最大化するために,相対的な位置埋め込みを導入する。
さらに,推定中にブロックワイズ因果関係に注意を向けることで,解決性が向上した。
言語モデルを用いてトランスフォーマーの変種を評価する。
実験の結果,本モデルは補間と補間の両方において強い性能を発揮することがわかった。
コードはhttps://aka.ms/LeX-Transformer.comから入手できる。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions [7.478336691707095]
最先端の再重み付け関数は、ターゲットシーケンスの長さに大きく依存する。
本稿ではLearnered Proportions(LeaP)とLeaPformersを提案する。
論文 参考訳(メタデータ) (2024-05-18T22:23:07Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - When to Use Efficient Self Attention? Profiling Text, Speech and Image
Transformer Variants [39.00433193973159]
本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。
効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。
そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
論文 参考訳(メタデータ) (2023-06-14T17:59:02Z) - Transformer-F: A Transformer network with effective methods for learning
universal sentence representation [8.225067988604351]
Transformerモデルは、自然言語処理で文表現に広く使われている。
本稿では,トランスフォーマーの性能向上のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-07-02T03:20:11Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。