論文の概要: PoPE: Legendre Orthogonal Polynomials Based Position Encoding for Large Language Models
- arxiv url: http://arxiv.org/abs/2405.04585v1
- Date: Mon, 29 Apr 2024 10:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-12 15:40:48.845258
- Title: PoPE: Legendre Orthogonal Polynomials Based Position Encoding for Large Language Models
- Title(参考訳): PoPE: 伝説的直交多項式を用いた大規模言語モデルの位置符号化
- Authors: Arpit Aggarwal,
- Abstract要約: Polynomial Based Positional Gonal (PoPE)は、オルソゴン伝説の位置情報を符号化する。
変換器モデルPoPEは、Multi30k$の英語-ドイツ語翻訳タスクでベースライン変換器モデルより優れていることを示す。
本稿では,PoPEの優れた性能に基づく位置符号化に関する新しい理論的視点を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There are several improvements proposed over the baseline Absolute Positional Encoding (APE) method used in original transformer. In this study, we aim to investigate the implications of inadequately representing positional encoding in higher dimensions on crucial aspects of the attention mechanism, the model's capacity to learn relative positional information, and the convergence of models, all stemming from the choice of sinusoidal basis functions. Through a combination of theoretical insights and empirical analyses, we elucidate how these challenges extend beyond APEs and may adversely affect the performance of Relative Positional Encoding (RPE) methods, such as Rotatory Positional Encoding (RoPE). Subsequently, we introduce an innovative solution termed Orthogonal Polynomial Based Positional Encoding (PoPE) to address some of the limitations associated with existing methods. The PoPE method encodes positional information by leveraging Orthogonal Legendre polynomials. Legendre polynomials as basis functions offers several desirable properties for positional encoding, including improved correlation structure, non-periodicity, orthogonality, and distinct functional forms among polynomials of varying orders. Our experimental findings demonstrate that transformer models incorporating PoPE outperform baseline transformer models on the $Multi30k$ English-to-German translation task, thus establishing a new performance benchmark. Furthermore, PoPE-based transformers exhibit significantly accelerated convergence rates. Additionally, we will present novel theoretical perspectives on position encoding based on the superior performance of PoPE.
- Abstract(参考訳): 元の変圧器で使用される絶対位置符号化法(APE)のベースラインにいくつかの改良が提案されている。
本研究では,注意機構の重要な側面,相対的な位置情報学習能力,および正弦波基底関数の選択に起因したモデルの収束性について,高次元における位置符号化の不適切な表現が与える影響について検討する。
理論的洞察と経験的分析の組み合わせにより、これらの課題がAPEを超えてどのように拡張され、回転位置符号化(RoPE)などの相対位置符号化(RPE)手法の性能に悪影響を及ぼすかを明らかにする。
次に, 直交多項式に基づく位置符号化 (PoPE) という革新的な手法を導入し, 既存の手法の限界に対処する。
PoPE法は、直交ルジャンドル多項式を利用して位置情報を符号化する。
基底関数としてのレジェンダレ多項式は、相関構造の改善、非周期性、直交性、および様々な順序の多項式間の異なる機能形式を含む、位置符号化に望ましいいくつかの性質を提供する。
実験結果から,PoPEをベースライントランスフォーマーモデルに組み込んだトランスフォーマーモデルが,Multi30k$の英語-ドイツ語翻訳タスクに優れており,新たな性能ベンチマークが確立された。
さらに、PoPEベースの変圧器は、収束速度を著しく加速する。
さらに、PoPEの優れた性能に基づく位置符号化に関する新しい理論的視点を示す。
関連論文リスト
- The Locality and Symmetry of Positional Encodings [9.246374019271938]
我々はtextbfBi Masked Language Models (BERT-style) における位置符号化の体系的研究を行う。
PEのコア関数は、局所性と対称性という2つの共通性質を同定することによって明らかにする。
2つの新しい探索タスクを導入し、現在のPEの弱点を定量化する。
論文 参考訳(メタデータ) (2023-10-19T16:15:15Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Linearized Relative Positional Encoding [43.898057545832366]
相対的な位置符号化は、位置情報を表すためにバニラや線形変換器で広く使われている。
従来の線形相対的位置符号化手法を正準形式にまとめる。
さらに,一元変換を用いた線形相対的位置符号化アルゴリズムのファミリを提案する。
論文 参考訳(メタデータ) (2023-07-18T13:56:43Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers [71.32827362323205]
我々はLearner-Transformer (Learners)と呼ばれる線形変換器の新しいクラスを提案する。
様々な相対的位置エンコーディング機構(RPE)を組み込んでいる。
これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - LAPFormer: A Light and Accurate Polyp Segmentation Transformer [6.352264764099531]
我々は,階層型トランスフォーマーエンコーダを用いてグローバルな特徴を抽出する,LAPFormerというエンコーダデコーダアーキテクチャを用いた新しいモデルを提案する。
提案するデコーダは,高スケールおよび低スケールから特徴を融合するプログレッシブ・フィーチャー・フュージョン・モジュールを含む。
ポリープセグメンテーションのための5つの人気のあるベンチマークデータセット上で、我々のモデルを検証した。
論文 参考訳(メタデータ) (2022-10-10T01:52:30Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers [124.01928050651466]
本稿では,Polyp-PVTと呼ばれる新しいタイプのPolypセグメンテーション手法を提案する。
提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-08-16T07:09:06Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Relative Positional Encoding for Transformers with Linear Complexity [30.48367640796256]
古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。
RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。
本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
論文 参考訳(メタデータ) (2021-05-18T09:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。