論文の概要: Attention Alignment and Flexible Positional Embeddings Improve
Transformer Length Extrapolation
- arxiv url: http://arxiv.org/abs/2311.00684v2
- Date: Wed, 15 Nov 2023 15:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 19:07:23.929000
- Title: Attention Alignment and Flexible Positional Embeddings Improve
Transformer Length Extrapolation
- Title(参考訳): 変圧器長補間を改善するアライメントとフレキシブル位置埋め込み
- Authors: Ta-Chung Chi and Ting-Han Fan and Alexander I. Rudnicky
- Abstract要約: 理想的な長伸長トランスフォーマー言語モデルは、微調整なしでトレーニング長よりも長いシーケンスを処理できる。
T5ファミリーは、位置埋め込みがリッチでフレキシブルな注意パターンを捉えているので、よりよく見るべきである。
この問題を軽減するために,温度スケーリングによる2つのアライメント戦略を提案する。
- 参考スコア(独自算出の注目度): 61.305218287797025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An ideal length-extrapolatable Transformer language model can handle
sequences longer than the training length without any fine-tuning. Such
long-context utilization capability relies heavily on a flexible positional
embedding design. Upon investigating the flexibility of existing large
pre-trained Transformer language models, we find that the T5 family deserves a
closer look, as its positional embeddings capture rich and flexible attention
patterns. However, T5 suffers from the dispersed attention issue: the longer
the input sequence, the flatter the attention distribution. To alleviate the
issue, we propose two attention alignment strategies via temperature scaling.
Our findings show improvement on the long-context utilization capability of T5
on language modeling, retrieval, multi-document question answering, and code
completion tasks without any fine-tuning. This suggests that a flexible
positional embedding design and attention alignment can go a long way toward
Transformer length extrapolation.
- Abstract(参考訳): 理想的な長伸長トランスフォーマー言語モデルは、微調整なしでトレーニング長よりも長いシーケンスを処理できる。
このような長期利用能力は、柔軟な位置埋め込み設計に大きく依存している。
既存の大規模トレーニング済みのTransformer言語モデルの柔軟性を調べると、T5ファミリは、その位置埋め込みがリッチでフレキシブルな注意パターンを捉えているため、より深く見るべきであることがわかった。
しかし、T5は分散された注意の問題に悩まされ、入力シーケンスが長ければ長いほど、注意分布が平坦になる。
この問題を軽減するために,温度スケーリングによる注意アライメント戦略を2つ提案する。
本研究は,言語モデリング,検索,マルチドキュメント質問応答,コード補完タスクにおいて,微調整することなくt5の長期利用能力の向上を示す。
これは、フレキシブルな位置埋め込み設計と注意アライメントがトランスフォーマー長の補間に向けて長い道のりを歩むことを示唆している。
関連論文リスト
- Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech [9.982121768809854]
本稿では,ARトランスフォーマーを用いたエンコーダ・デコーダによる音声合成システムの改良について述べる。
提案手法では,アライメント機構を用いて,相対的な位置情報を用いたクロスアテンション操作を行う。
これらの改良を取り入れたVery Attentive Tacotronと呼ばれるシステムは、ベースラインT5ベースのTSシステムの自然性と表現性にマッチする。
論文 参考訳(メタデータ) (2024-10-29T16:17:01Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - CoLT5: Faster Long-Range Transformers with Conditional Computation [65.83586041097763]
我々は、CoLT5がLongT5よりもはるかに高速なトレーニングと推論でパフォーマンスを実現していることを示す。
CoLT5は、非常に長い入力を効果的に、かつ、トラクタブルに利用でき、64kまでの入力長が強い。
論文 参考訳(メタデータ) (2023-03-17T03:28:17Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Dissecting Transformer Length Extrapolation via the Lens of Receptive
Field Analysis [72.71398034617607]
我々は、相対的な位置埋め込み設計であるALiBiを受容場解析のレンズで識別する。
バニラ正弦波位置埋め込みを修正してbftextを作成する。これはパラメータフリーな相対的位置埋め込み設計であり、真の長さ情報はトレーニングシーケンスよりも長くなる。
論文 参考訳(メタデータ) (2022-12-20T15:40:17Z) - LongT5: Efficient Text-To-Text Transformer for Long Sequences [8.743996838160825]
我々はLongT5と呼ばれる新しいモデルを提案し、入力長とモデルサイズの両方を同時にスケーリングする効果について検討する。
いくつかの要約タスクでは最先端の結果が得られ、質問応答タスクでは元のT5モデルよりも優れています。
論文 参考訳(メタデータ) (2021-12-15T06:35:29Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。