論文の概要: HyPE: Attention with Hyperbolic Biases for Relative Positional Encoding
- arxiv url: http://arxiv.org/abs/2310.19676v1
- Date: Mon, 30 Oct 2023 15:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:16:16.210388
- Title: HyPE: Attention with Hyperbolic Biases for Relative Positional Encoding
- Title(参考訳): HyPE: 相対的位置エンコーディングのための双曲的ビアーゼによる注意
- Authors: Giorgio Angelotti
- Abstract要約: Transformerベースのアーキテクチャでは、アテンション機構は入力シーケンスのトークンに関して本質的に置換不変である。
本稿では,双曲関数の特性を利用してトークンの相対位置を符号化する新しい手法である,双曲的位置注意(HyPE)を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Transformer-based architectures, the attention mechanism is inherently
permutation-invariant with respect to the input sequence's tokens. To impose
sequential order, token positions are typically encoded using a scheme with
either fixed or learnable parameters. We introduce Hyperbolic Positional
Encoding (HyPE), a novel method that utilizes hyperbolic functions' properties
to encode tokens' relative positions. This approach biases the attention
mechanism without the necessity of storing the $O(L^2)$ values of the mask,
with $L$ being the length of the input sequence. HyPE leverages preliminary
concatenation operations and matrix multiplications, facilitating the encoding
of relative distances indirectly incorporating biases into the softmax
computation. This design ensures compatibility with FlashAttention-2 and
supports the gradient backpropagation for any potential learnable parameters
within the encoding. We analytically demonstrate that, by careful
hyperparameter selection, HyPE can approximate the attention bias of ALiBi,
thereby offering promising generalization capabilities for contexts extending
beyond the lengths encountered during pretraining. The experimental evaluation
of HyPE is proposed as a direction for future research.
- Abstract(参考訳): Transformerベースのアーキテクチャでは、アテンション機構は入力シーケンスのトークンに関して本質的に置換不変である。
シーケンシャルな順序を課すため、トークンの位置は固定または学習可能なパラメータを持つスキームを使って符号化される。
本稿では,双曲関数の特性を利用してトークンの相対位置を符号化するHyPE(Hyperbolic Positional Encoding)を提案する。
このアプローチは、マスクの$O(L^2)$値を格納する必要なく注意機構をバイアスし、$L$は入力シーケンスの長さである。
HyPEは予備連結演算と行列乗法を活用し、ソフトマックス計算にバイアスを間接的に組み込んだ相対距離の符号化を容易にする。
この設計はflashattention-2との互換性を確保し、エンコーディング内で学習可能なパラメータの勾配バックプロパゲーションをサポートする。
分析によって,HyPEはALiBiの注意バイアスを近似し,事前学習中に遭遇する長さを超えるコンテキストに対して有望な一般化機能を提供することを示した。
今後の研究の方向性としてHyPEの実験的評価を提案する。
関連論文リスト
- Pyramid Hierarchical Transformer for Hyperspectral Image Classification [1.9427851979929982]
ピラミッド型階層変換器(PyFormer)を提案する。
この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。
その結果,従来の手法よりも提案手法の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T11:41:19Z) - Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。
位置符号化を伴わない変圧器長一般化特性について検討する。
NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文 参考訳(メタデータ) (2024-04-18T14:38:32Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Towards More Efficient Insertion Transformer with Fractional Positional
Encoding [44.45401243989363]
自動回帰ニューラルシーケンスモデルは、テキスト生成タスクで有効であることが示されている。
左から右への復号命令は、生成が並列化されるのを防ぐ。
Insertion Transformerは、単一の生成ステップで複数のトークンを出力できる魅力的な代替手段である。
論文 参考訳(メタデータ) (2021-12-12T18:38:27Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Relative Positional Encoding for Transformers with Linear Complexity [30.48367640796256]
古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。
RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。
本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
論文 参考訳(メタデータ) (2021-05-18T09:52:32Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。