論文の概要: Remember to Forget: Gated Adaptive Positional Encoding
- arxiv url: http://arxiv.org/abs/2605.10414v1
- Date: Mon, 11 May 2026 11:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.784147
- Title: Remember to Forget: Gated Adaptive Positional Encoding
- Title(参考訳): Gated Adaptive Positional Encoding (動画)
- Authors: Riccardo Ali, Alessio Borgi, Christopher Irwin, Mario Severino, Pietro Liò,
- Abstract要約: GAPE(Gated Adaptive Positional)は、注意ログに直接コンテンツ認識バイアスを導入する位置エンコーディングのためのドロップイン拡張である。
GAPEは、回転ベースラインよりもシャープな注意を与え、長いコンテキストを改善していることを示す。
- 参考スコア(独自算出の注目度): 10.761099220518522
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rotary Positional Encoding (RoPE) is widely used in modern large language models. However, when sequences are extended beyond the range seen during training, rotary phases can enter out-of-distribution regimes, leading to spurious long-range alignments, diffuse attention, and degraded retrieval. Existing remedies only partially address these failures, as they often trade local positional resolution for long-context stability. We propose GAPE (Gated Adaptive Positional Encoding), a drop-in augmentation for positional encodings that introduces a content-aware bias directly into the attention logits while preserving the rotary geometry. GAPE decouples distance-based suppression from token importance through a query-dependent gate that contracts irrelevant context and a key-dependent gate that preserves salient distant tokens. We prove that protected tokens remain accessible, while the attention mass assigned to unprotected distant tokens decays as a function of the query gate. We further show that GAPE can be implemented within standard scaled dot-product attention. We validate these properties empirically, finding that GAPE consistently yields sharper attention and improved long-context robustness over rotary baselines across both synthetic retrieval and long-context benchmarks.
- Abstract(参考訳): Rotary Positional Encoding (RoPE) は、現代の大規模言語モデルで広く使われている。
しかし、トレーニング中に見られる範囲を超えてシーケンスが拡張されると、回転相は分布外状態に入り、急激な長距離アライメント、拡散注意、劣化した検索につながる。
既存の治療法は、局所的な位置分解能を長期的安定性と交換することが多いため、これらの障害に部分的に対処するだけである。
本稿では,GAPE (Gated Adaptive Positional Encoding) を提案する。
GAPEは、無関係なコンテキストを制約するクエリ依存ゲートと、有意義な遠隔トークンを保存するキー依存ゲートを通じて、トークンの重要性から距離ベースの抑制を分離する。
保護されたトークンは引き続きアクセス可能であることを証明し、未保護の遠隔トークンに割り当てられた注意質量はクエリゲートの関数として減衰する。
さらに, GAPEは, 標準スケールのドット積アテンションで実装可能であることを示す。
我々はこれらの特性を実証的に検証し、GAPEが常により鋭い注意を与え、合成検索と長文ベンチマークの両方で回転ベースラインよりも長いコンテキストロバスト性を向上させることを発見した。
関連論文リスト
- Attention in Constant Time: Vashista Sparse Attention for Long-Context Decoding with Exponential Guarantees [0.0]
大規模な言語モデルは、長いコンテキストに対する推論コストの大部分を注意に費やします。
我々はこの現象をキーベクトルの凸殻への射影として注意をモデル化することによって定式化する。
本稿では,クエリ毎に小さな候補セットを保持するドロップイン機構であるVasista Sparse Attentionを紹介する。
論文 参考訳(メタデータ) (2026-02-14T14:29:10Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Untwisting RoPE: Frequency Control for Shared Attention in DiTs [84.14005261938284]
位置符号化はトランスフォーマーベースの生成モデルに不可欠である。
ロータリー・ポジショナル・エンベディング (RoPE) は, 異なる位置感性を有する周波数成分に自然に分解されることを示す。
本稿では,厳密な位置アライメントよりも意味的類似性を反映するように,RoPE周波数帯域を選択的に変調する手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T20:01:59Z) - Positional Encoding via Token-Aware Phase Attention [45.855203550592734]
本研究は,Rotary Positional Embedding (RoPE) が注意点の内在的距離依存バイアスを導入し,RoPEが長期コンテキストをモデル化する能力を制限していることを示す。
本稿では,学習可能な位相関数をアテンション機構に組み込んだ新しい位置符号化手法であるToken-Aware Phase Attention (TAPA)を紹介する。
論文 参考訳(メタデータ) (2025-09-16T03:53:32Z) - HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models [19.3827288035483]
双曲型回転位置決め法を提案する。
トークン表現にローレンツ回転を実装するために双曲関数を利用する(HoPE)。
テストは、HoPEが既存の位置符号化手法を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-05T16:20:48Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。