論文の概要: On the Limitations and Capabilities of Position Embeddings for Length Generalization
- arxiv url: http://arxiv.org/abs/2510.04130v1
- Date: Sun, 05 Oct 2025 10:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.476735
- Title: On the Limitations and Capabilities of Position Embeddings for Length Generalization
- Title(参考訳): 長さ一般化のための位置埋め込みの限界と機能について
- Authors: Yang Chen, Yitao Liang, Zhouchen Lin,
- Abstract要約: 本稿では,LG(Longth Generalization)の性能向上における位置埋め込み(PE)の限界と能力について検討する。
解析の結果、PEは計算能力を拡張せず、位置をまたいだ構造化された計算が可能であることがわかった。
逐次表現複雑性 (Sequential Representation Complexity, SRC) を提案し, SRC がスケールにわたって不変である場合に限り LG が可能であることを予想する。
- 参考スコア(独自算出の注目度): 64.50857363288598
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Transformers, Position Embeddings (PEs) significantly influence Length Generalization (LG) performance, yet their fundamental role remains unclear. In this work, we investigate the limitations and capabilities of PEs in achieving LG. We theoretically analyze PEs in Position-Only Linear Attentions (POLAs), introducing Linear Representation Complexity (LRC) to characterize when PEs enable LG. Our analysis shows that PEs do not expand computational capabilities but structure learned computations across positions. Extending to practical Transformers, we propose Sequential Representation Complexity (SRC) and conjecture that LG is possible if and only if SRC remains invariant across scales. We support this hypothesis with empirical evidence in various reasoning tasks. To enhance LG, we introduce Scale Hint, allowing flexible instance scaling, and a Learning-Based Position Embedding framework that automatically learns positional relations. Our work provides theoretical insights and practical strategies for improving LG in Transformers.
- Abstract(参考訳): トランスフォーマーでは、位置埋め込み(PE)が長さ一般化(LG)のパフォーマンスに大きな影響を及ぼすが、その基本的な役割は明らかになっていない。
本稿では,LG の実現における PE の限界と能力について検討する。
位置オンリーリニアアテンション(POLA)におけるPEを理論的に解析し、線形表現複雑性(LRC)を導入して、PEがLGを有効にする際の特徴付けを行う。
解析の結果、PEは計算能力を拡張せず、位置をまたいだ構造化された計算が可能であることがわかった。
実用的な変換器に拡張して、逐次表現複雑性 (Sequential Representation Complexity, SRC) を提案する。
我々はこの仮説を様々な推論タスクにおいて実証的な証拠で支持する。
LGを強化するために,フレキシブルなインスタンススケーリングを可能にするScale Hintと,位置関係を自動的に学習するLearning-Based Position Embeddingフレームワークを導入する。
我々の研究は、TransformersにおけるLGを改善するための理論的洞察と実践的戦略を提供する。
関連論文リスト
- Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - Born a Transformer -- Always a Transformer? [57.37263095476691]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - Analyzing limits for in-context learning [2.1178416840822027]
インコンテキスト学習(ICL)は、基本的な振る舞いを明らかにするための制御された設定として関数正規化タスクに焦点を当て、スクラッチから訓練されたトランスフォーマーモデルである。
我々は、変圧器モデルが正規化(非線型)関数の未確認クラスを一般化し近似することができることを実証的に示すが、それらは特定の値を超える一般化はできない。
論文 参考訳(メタデータ) (2025-02-05T11:03:36Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Revisiting Generalized p-Laplacian Regularized Framelet GCNs:
Convergence, Energy Dynamic and Training with Non-Linear Diffusion [44.4195350090039]
本稿では,グラフp-ラプラシア正規化フレームレットネットワーク(pL-UFG)の理論解析について述べる。
我々はpL-UFGの収束解析を行い、その挙動の理解のギャップに対処する。
手動制御エネルギー力学を用いた2つの新しいpL-UFGモデルを提案する。
論文 参考訳(メタデータ) (2023-05-25T01:36:34Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。