論文の概要: SeqPE: Transformer with Sequential Position Encoding
- arxiv url: http://arxiv.org/abs/2506.13277v2
- Date: Tue, 17 Jun 2025 10:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 13:08:30.119511
- Title: SeqPE: Transformer with Sequential Position Encoding
- Title(参考訳): SeqPE: 逐次位置エンコード付きトランス
- Authors: Huayang Li, Yahui Liu, Hongyu Sun, Deng Cai, Leyang Cui, Wei Bi, Peilin Zhao, Taro Watanabe,
- Abstract要約: SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
- 参考スコア(独自算出の注目度): 76.22159277300891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since self-attention layers in Transformers are permutation invariant by design, positional encodings must be explicitly incorporated to enable spatial understanding. However, fixed-size lookup tables used in traditional learnable position embeddings (PEs) limit extrapolation capabilities beyond pre-trained sequence lengths. Expert-designed methods such as ALiBi and RoPE, mitigate this limitation but demand extensive modifications for adapting to new modalities, underscoring fundamental challenges in adaptability and scalability. In this work, we present SeqPE, a unified and fully learnable position encoding framework that represents each $n$-dimensional position index as a symbolic sequence and employs a lightweight sequential position encoder to learn their embeddings in an end-to-end manner. To regularize SeqPE's embedding space, we introduce two complementary objectives: a contrastive objective that aligns embedding distances with a predefined position-distance function, and a knowledge distillation loss that anchors out-of-distribution position embeddings to in-distribution teacher representations, further enhancing extrapolation performance. Experiments across language modeling, long-context question answering, and 2D image classification demonstrate that SeqPE not only surpasses strong baselines in perplexity, exact match (EM), and accuracy--particularly under context length extrapolation--but also enables seamless generalization to multi-dimensional inputs without requiring manual architectural redesign. We release our code, data, and checkpoints at https://github.com/ghrua/seqpe.
- Abstract(参考訳): トランスフォーマーの自己アテンション層は設計によって不変であるため、空間的理解を可能にするために位置エンコーディングを明示的に組み込まなければならない。
しかし、従来の学習可能な位置埋め込み(PE)で使用される固定サイズのルックアップテーブルは、事前訓練されたシーケンス長を超えて外挿能力を制限している。
ALiBiやRoPEのような専門家が設計した手法は、この制限を緩和するが、新しいモダリティに適応するための広範囲な修正を必要とし、適応性とスケーラビリティの根本的な課題を浮き彫りにしている。
本研究では,各$n$次元の位置指数を記号列として表現し,軽量なシーケンシャルな位置エンコーダを用いて埋め込みをエンドツーエンドに学習する,統一的で完全に学習可能な位置符号化フレームワークであるSeqPEを提案する。
本研究では,SeqPEの埋め込み空間を正規化するために,埋め込み距離を予め定義された位置距離関数と整列するコントラスト目的と,分布外位置埋め込みを非分布教師表現に固定する知識蒸留損失の2つの相補的目的を導入し,さらに外挿性能を向上する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEは難易度、精度(EM)、精度(特に文脈長外挿法)の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせずに、多次元インプットへのシームレスな一般化を可能にする。
コード、データ、チェックポイントはhttps://github.com/ghrua/seqpe.comで公開しています。
関連論文リスト
- PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - Context-aware Biases for Length Extrapolation [0.0]
長さ補間のための付加的RPE, コンテキスト認識バイアス(CABLE)を提案する。
入力シーケンスに基づいて位置バイアスを動的に調整することにより、CABLEは固定されたRPEの剛性を克服する。
提案手法はFineWeb-Edu10BおよびWikiText-103データセット上でテストされた既存のRPE手法の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-11T05:54:58Z) - Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding [89.52931576290976]
トランスフォーマーは、コンテンツベースと位置ベースのアドレッシングメカニズムの両方に依存して予測を行う。
TAPEは、レイヤ間のシーケンスコンテンツを組み込むことで、位置埋め込みを強化する新しいフレームワークである。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-01-01T03:23:00Z) - PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - Contextual Position Encoding: Learning to Count What's Important [42.038277620194]
我々は,新しい位置符号化手法であるコンテキスト位置フロップ(CoPE)を提案する。
CoPEは、モデルによって決定された特定のトークンに位置を増すことによって、状況に応じて位置を条件付けることができる。
一般的な位置埋め込みが失敗するFlip-Flopタスクにおいて,CoPEが選択的コピー,カウント,Flip-Flopタスクを解くことができることを示す。
論文 参考訳(メタデータ) (2024-05-29T02:57:15Z) - DAPE: Data-Adaptive Positional Encoding for Length Extrapolation [60.18239094672938]
位置符号化はトランスにおいて重要な役割を担い、モデル性能と一般化長に大きな影響を及ぼす。
本研究では,訓練された長さと長さの一般化の観点からモデル性能を向上させるDAPE法を提案する。
提案手法は, 他の静的位置符号化法と比較して, シーケンス長128でモデルをトレーニングし, 評価シーケンス長8192で性能を向上する。
論文 参考訳(メタデータ) (2024-05-23T15:51:24Z) - HyPE: Attention with Hyperbolic Biases for Relative Positional Encoding [0.0]
Transformerベースのアーキテクチャでは、アテンション機構は入力シーケンスのトークンに関して本質的に置換不変である。
本稿では,双曲関数の特性を利用してトークンの相対位置を符号化する新しい手法である,双曲的位置注意(HyPE)を紹介する。
論文 参考訳(メタデータ) (2023-10-30T15:54:32Z) - Spherical Position Encoding for Transformers [0.0]
本稿では,トランスアーキテクチャの入力要素である「ゲオトケン」の概念を紹介する。
自然言語とは異なり、逐次位置はモデルにとって重要ではなく、地理的座標である。
球面座標の調整を行うRoPEアーキテクチャに基づく位置符号化機構を定式化する。
論文 参考訳(メタデータ) (2023-10-04T09:28:59Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。