論文の概要: Position as Probability: Self-Supervised Transformers that Think Past Their Training for Length Extrapolation
- arxiv url: http://arxiv.org/abs/2506.00920v1
- Date: Sun, 01 Jun 2025 09:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.792406
- Title: Position as Probability: Self-Supervised Transformers that Think Past Their Training for Length Extrapolation
- Title(参考訳): 確率としてのポジション:長さ外挿訓練を経た自己監督型変圧器
- Authors: Philip Heejun Lee,
- Abstract要約: PRISMは、トランスフォーマーがトレーニング長の10倍まで正確に外挿できる新しい位置符号化機構である。
解析により、PRISMの位置エンコーディングは鋭く解釈可能な内部状態を維持しており、信頼性のある長さ一般化の理論的基礎となっていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep sequence models typically degrade in accuracy when test sequences significantly exceed their training lengths, yet many critical tasks--such as algorithmic reasoning, multi-step arithmetic, and compositional generalization--require robust length extrapolation. We introduce PRISM, a Probabilistic Relative-position Implicit Superposition Model, a novel positional encoding mechanism that enables Transformers to extrapolate accurately up to 10x beyond their training length. PRISM learns continuous relative positions through a differentiable histogram-filter update, preserving position uncertainty via a probabilistic superposition rather than conventional deterministic embeddings. Empirically, PRISM achieves state-of-the-art length extrapolation, successfully generalizing to previously intractable sequence lengths across algorithmic benchmarks--including arithmetic (addition, multiplication), SCAN compositionality tasks, and complex copy variants derived from DeepMind's recent datasets. Our analysis demonstrates that PRISM's stochastic positional encoding maintains sharp and interpretable internal states, providing a theoretical basis for reliable length generalization. These results advance the goal of neural sequence models that remain algorithmically robust at lengths far exceeding their training horizon.
- Abstract(参考訳): ディープシークエンスモデルは、テストシーケンスがトレーニングの長さを大幅に上回ると、通常精度が低下するが、アルゴリズム的推論、多段階算術、構成的一般化など多くの重要なタスクは、堅牢な長さ外挿を必要とする。
PRISM, Probabilistic Relative-position Implicit Superposition Modelを導入する。これはトランスフォーマーがトレーニング長の10倍まで正確に外挿できる新しい位置符号化機構である。
PRISMは、従来の決定論的埋め込みよりも確率的重ね合わせによる位置不確かさを保ちながら、微分可能なヒストグラムフィルタ更新を通じて連続的な相対位置を学習する。
経験的に、PRISMは最先端の長さの補間を達成し、アルゴリズムのベンチマークにおいて、算術(加算、乗算)、SCAN合成タスク、DeepMindの最近のデータセットから派生した複雑なコピーの変種を含む、以前に難解なシーケンス長に一般化することに成功した。
解析の結果、PRISMの確率的位置符号化は鋭く解釈可能な内部状態を維持しており、信頼性のある長さの一般化の理論的基礎となっていることが示された。
これらの結果は、トレーニングの地平線をはるかに超える長さでアルゴリズム的に頑健なニューラルネットワークモデルの目標を推し進める。
関連論文リスト
- Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。
予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。
本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文 参考訳(メタデータ) (2025-02-24T03:01:03Z) - Prompting a Pretrained Transformer Can Be a Universal Approximator [105.59562522323274]
従来考えられていたよりもはるかに小さな事前学習モデルでは,プレフィックスの場合には普遍近似が可能であることを示す。
また、関数を所望の精度に近似するのに必要なプレフィックスの長さにジャクソン型境界を与える。
論文 参考訳(メタデータ) (2024-02-22T18:12:48Z) - Randomized Positional Encodings Boost Length Generalization of
Transformers [14.814408238614165]
トランスフォーマーは、一定のコンテキスト長のタスクに対して印象的な一般化機能を持つ。
文字列の重複のような一見単純なタスクであっても、任意の長さの列に一般化できない。
この問題を克服できる位置エンコーディングの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-05-26T11:47:52Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural
Networks [47.52214243454995]
繰り返しニューラルネットワーク(RNN)を訓練する一般的な戦略は、各ステップで入力として地上の真実を取ることです。
本稿では,RNNの長期的依存関係をよりよく把握するための,完全微分可能なトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-22T06:15:22Z) - MLE-guided parameter search for task loss minimization in neural
sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文 参考訳(メタデータ) (2020-06-04T22:21:22Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。