論文の概要: Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding
- arxiv url: http://arxiv.org/abs/2501.00712v2
- Date: Thu, 21 Aug 2025 01:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:45.927541
- Title: Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding
- Title(参考訳): 等角化等変位置エンコーディングによる言語モデルのアドレス再考
- Authors: Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang,
- Abstract要約: 本研究では,コンテキストbfTextualized equivaritextbfAnt textbfPosition textbfEncoding(textbfTAPE)を提案する。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
- 参考スコア(独自算出の注目度): 89.52931576290976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers rely on both content-based and position-based addressing mechanisms to make predictions, but existing positional encoding techniques often diminish the effectiveness of position-based addressing. Many current methods enforce rigid patterns in attention maps, limiting the ability to model long-range dependencies and adapt to diverse tasks. Additionally, most positional encodings are learned as general biases, lacking the specialization required for different instances within a dataset. To address this, we propose con\textbf{T}extualized equivari\textbf{A}nt \textbf{P}osition \textbf{E}ncoding (\textbf{TAPE}), a novel framework that enhances positional embeddings by incorporating sequence content across layers. TAPE introduces dynamic, context-aware positional encodings, overcoming the constraints of traditional fixed patterns. We show that TAPE can provably facilitate LLM reasoning ability by emulating a broader class of algorithms. By enforcing permutation and orthogonal equivariance, TAPE ensures the stability of positional encodings during updates, improving long-context ability. Our method can be easily integrated into pre-trained transformers, offering parameter-efficient fine-tuning with minimal overhead. Extensive experiments show that TAPE achieves superior performance in language modeling, arithmetic reasoning, and long-context retrieval tasks compared to existing positional embedding techniques. Code is available at https://github.com/VITA-Group/TAPE.
- Abstract(参考訳): トランスフォーマーはコンテンツベースと位置ベースのアドレッシング機構の両方に依存して予測を行うが、既存の位置エンコーディング技術は位置ベースのアドレッシングの有効性を低下させることが多い。
多くの現行の手法では、注意マップの厳格なパターンを強制し、長距離依存をモデル化し、多様なタスクに適応する能力を制限する。
さらに、ほとんどの位置エンコーディングは一般的なバイアスとして学習され、データセット内の異なるインスタンスに必要な特殊化が欠如している。
この問題に対処するために, 階層間のシーケンス内容を組み込んで位置埋め込みを強化する新しいフレームワークである con\textbf{T}extualized equivari\textbf{A}nt \textbf{P}osition \textbf{E}ncoding (\textbf{TAPE}) を提案する。
TAPEは動的でコンテキスト対応な位置符号化を導入し、従来の固定パターンの制約を克服している。
TAPEは、より広範なアルゴリズムをエミュレートすることにより、LLM推論能力を向上させることができることを示す。
置換と直交等式を強制することにより、TAPEは更新中の位置エンコーディングの安定性を保証し、長いコンテキスト能力を向上させる。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
拡張実験により,TAPEは既存の位置埋め込み技術と比較して,言語モデリング,算術的推論,長文検索タスクにおいて優れた性能を発揮することが示された。
コードはhttps://github.com/VITA-Group/TAPEで入手できる。
関連論文リスト
- Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - Context-aware Biases for Length Extrapolation [0.0]
長さ補間のための付加的RPE, コンテキスト認識バイアス(CABLE)を提案する。
入力シーケンスに基づいて位置バイアスを動的に調整することにより、CABLEは固定されたRPEの剛性を克服する。
提案手法はFineWeb-Edu10BおよびWikiText-103データセット上でテストされた既存のRPE手法の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-11T05:54:58Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - The Balanced-Pairwise-Affinities Feature Transform [2.3020018305241337]
BPA機能変換は、入力項目のセットの機能をアップグレードして、下流のマッチングや関連するタスクのグループ化を容易にするように設計されている。
特定の min- Cost-max-flow の分数マッチング問題は、効率的、微分可能、同変、パラメータレス、確率論的に解釈可能な変換をもたらす。
経験的には、この変換はその使用において非常に効果的で柔軟性があり、様々なタスクやトレーニングスキームにおいて挿入されるネットワークを継続的に改善する。
論文 参考訳(メタデータ) (2024-06-25T14:28:05Z) - DAPE: Data-Adaptive Positional Encoding for Length Extrapolation [60.18239094672938]
位置符号化はトランスにおいて重要な役割を担い、モデル性能と一般化長に大きな影響を及ぼす。
本研究では,訓練された長さと長さの一般化の観点からモデル性能を向上させるDAPE法を提案する。
提案手法は, 他の静的位置符号化法と比較して, シーケンス長128でモデルをトレーニングし, 評価シーケンス長8192で性能を向上する。
論文 参考訳(メタデータ) (2024-05-23T15:51:24Z) - A Frustratingly Easy Improvement for Position Embeddings via Random
Padding [68.75670223005716]
本稿では,既存の事前学習型言語モデルを変更することなく,シンプルかつ効果的なランダムパディング手法を提案する。
実験により、ランダムパディングは、応答が後位置にあるインスタンスのモデル性能を著しく改善できることが示された。
論文 参考訳(メタデータ) (2023-05-08T17:08:14Z) - Multiplicative Position-aware Transformer Models for Language
Understanding [17.476450946279037]
自己アテンションのようなアーキテクチャ改善を活用するトランスフォーマーモデルは、自然言語処理(NLP)タスクにおいて極めてよく機能する。
本稿では,既存の主要な位置埋め込み手法を概説し,その精度を下流NLPタスクで比較する。
また,既存手法と比較して精度が向上する新しい乗法埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-27T04:18:32Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。