論文の概要: On the Limitations and Capabilities of Position Embeddings for Length Generalization
- arxiv url: http://arxiv.org/abs/2510.04130v1
- Date: Sun, 05 Oct 2025 10:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.476735
- Title: On the Limitations and Capabilities of Position Embeddings for Length Generalization
- Title(参考訳): 長さ一般化のための位置埋め込みの限界と機能について
- Authors: Yang Chen, Yitao Liang, Zhouchen Lin,
- Abstract要約: 本稿では,LG(Longth Generalization)の性能向上における位置埋め込み(PE)の限界と能力について検討する。
解析の結果、PEは計算能力を拡張せず、位置をまたいだ構造化された計算が可能であることがわかった。
逐次表現複雑性 (Sequential Representation Complexity, SRC) を提案し, SRC がスケールにわたって不変である場合に限り LG が可能であることを予想する。
- 参考スコア(独自算出の注目度): 64.50857363288598
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Transformers, Position Embeddings (PEs) significantly influence Length Generalization (LG) performance, yet their fundamental role remains unclear. In this work, we investigate the limitations and capabilities of PEs in achieving LG. We theoretically analyze PEs in Position-Only Linear Attentions (POLAs), introducing Linear Representation Complexity (LRC) to characterize when PEs enable LG. Our analysis shows that PEs do not expand computational capabilities but structure learned computations across positions. Extending to practical Transformers, we propose Sequential Representation Complexity (SRC) and conjecture that LG is possible if and only if SRC remains invariant across scales. We support this hypothesis with empirical evidence in various reasoning tasks. To enhance LG, we introduce Scale Hint, allowing flexible instance scaling, and a Learning-Based Position Embedding framework that automatically learns positional relations. Our work provides theoretical insights and practical strategies for improving LG in Transformers.
- Abstract(参考訳): トランスフォーマーでは、位置埋め込み(PE)が長さ一般化(LG)のパフォーマンスに大きな影響を及ぼすが、その基本的な役割は明らかになっていない。
本稿では,LG の実現における PE の限界と能力について検討する。
位置オンリーリニアアテンション(POLA)におけるPEを理論的に解析し、線形表現複雑性(LRC)を導入して、PEがLGを有効にする際の特徴付けを行う。
解析の結果、PEは計算能力を拡張せず、位置をまたいだ構造化された計算が可能であることがわかった。
実用的な変換器に拡張して、逐次表現複雑性 (Sequential Representation Complexity, SRC) を提案する。
我々はこの仮説を様々な推論タスクにおいて実証的な証拠で支持する。
LGを強化するために,フレキシブルなインスタンススケーリングを可能にするScale Hintと,位置関係を自動的に学習するLearning-Based Position Embeddingフレームワークを導入する。
我々の研究は、TransformersにおけるLGを改善するための理論的洞察と実践的戦略を提供する。
関連論文リスト
- YuriiFormer: A Suite of Nesterov-Accelerated Transformers [62.40952219538543]
本稿では,トークン埋め込みに作用する最適化アルゴリズムの繰り返しとして,トランスフォーマー層を解釈する変分フレームワークを提案する。
この観点では、自己注意は相互作用エネルギーの勾配ステップを実装し、層はポテンシャルエネルギーの勾配更新に対応する。
標準のGPT型変圧器は、この2つのエネルギーの間でLie-Trotterスプリッティングによって実装された複合目的物のバニラ勾配降下として出現する。
論文 参考訳(メタデータ) (2026-01-30T18:06:21Z) - Impact of Positional Encoding: Clean and Adversarial Rademacher Complexity for Transformers under In-Context Regression [5.86461706751327]
In-context regression の下で単層変圧器の1次一般化解析を行う。
その結果,PEは一般化ギャップを体系的に拡大することがわかった。
PEによるモデル間のギャップは、攻撃下で拡大され、PEがモデルの脆弱性を増幅することを示す。
論文 参考訳(メタデータ) (2025-12-10T02:55:19Z) - Optimality and NP-Hardness of Transformers in Learning Markovian Dynamical Functions [32.71332125930795]
トランスフォーマーアーキテクチャは、インコンテキスト学習(ICL)による所定のプロンプトにおける入出力ペアに基づいて、目に見えないタスクを解決できる
マルコフ関数学習の基盤となる最適化動作を明らかにするため,構造化ICL設定によるマルコフ関数学習について検討する。
論文 参考訳(メタデータ) (2025-10-21T13:42:48Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - Born a Transformer -- Always a Transformer? [57.37263095476691]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - Massively Scaling Explicit Policy-conditioned Value Functions [16.387595437722613]
本稿では,EPVF(Explicit Policy-Conditioned Value Function)のスケーリング戦略を紹介する。
EPVFは、ポリシーパラメータに明示的に条件付けされた値関数 V(theta) を学習し、任意のポリシーパラメータを直接勾配ベースの更新を可能にする。
EPVFは、カスタムAnt環境のような複雑なタスクを解くためにスケールでき、最先端のDeep Reinforcement Learning(DRL)ベースラインと競合することができる。
論文 参考訳(メタデータ) (2025-02-17T16:02:54Z) - Analyzing limits for in-context learning [2.1178416840822027]
インコンテキスト学習(ICL)は、基本的な振る舞いを明らかにするための制御された設定として関数正規化タスクに焦点を当て、スクラッチから訓練されたトランスフォーマーモデルである。
我々は、変圧器モデルが正規化(非線型)関数の未確認クラスを一般化し近似することができることを実証的に示すが、それらは特定の値を超える一般化はできない。
論文 参考訳(メタデータ) (2025-02-05T11:03:36Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Revisiting Generalized p-Laplacian Regularized Framelet GCNs:
Convergence, Energy Dynamic and Training with Non-Linear Diffusion [44.4195350090039]
本稿では,グラフp-ラプラシア正規化フレームレットネットワーク(pL-UFG)の理論解析について述べる。
我々はpL-UFGの収束解析を行い、その挙動の理解のギャップに対処する。
手動制御エネルギー力学を用いた2つの新しいpL-UFGモデルを提案する。
論文 参考訳(メタデータ) (2023-05-25T01:36:34Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。