論文の概要: Towards Infinite Length Extrapolation: A Unified Approach
- arxiv url: http://arxiv.org/abs/2601.06113v1
- Date: Sat, 03 Jan 2026 14:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.582107
- Title: Towards Infinite Length Extrapolation: A Unified Approach
- Title(参考訳): 無限長外挿に向けて:統一的アプローチ
- Authors: Nitin Vetcha,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、長いシーケンスを処理する能力は、訓練中のコンテキストウィンドウサイズによって根本的に制限されている。
我々は、注目スコアを乗法変換と加法バイアスに分解するものとして、位置符号化手法を再解釈する統一的なフレームワークを使用する。
我々の理論的解析は、無限コンテキスト外挿条件を確立し、ソフトマックスハンドリングが、長距離相関、エントロピー境界性、勾配位置感度を保ちながら、非有界列に対して適切に定義されていることを保証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have revolutionized natural language processing, but their ability to process long sequences is fundamentally limited by the context window size during training. Existing length extrapolation methods often suffer from performance degradation or computational inefficiencies. We thereby use a unified framework that reinterprets positional encoding methods as a decomposition of the attention score into a multiplicative transformation and an additive bias. This perspective not only subsumes popular approaches such as relative position embeddings and attention-bias moderated approaches but also exposes their inherent limitations in handling long-range dependencies. To address these shortcomings, motivated by our framework, we introduce Adaptive Positional Encoding (APE), which leverages adaptive frequency modulation and an intricately designed decay bias that incorporates linear, logarithmic, and square-root terms. Our theoretical analysis establishes conditions for infinite-context extrapolation, ensuring that the softmax normalization remains well-defined over unbounded sequences while preserving long-distance correlations, entropy boundedness and gradient positional sensitivity. We substantiate our claims with an experimental case study on TinyStories dataset as well as a new synthetic dataset, \emph{Long Tiny Stories} featuring stories up to 32,000 words. Relevant code, dataset and model weights are available at https://anonymous.4open.science/r/Check-2DAD/.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、長いシーケンスを処理する能力は、訓練中のコンテキストウィンドウサイズによって根本的に制限されている。
既存の長さ外挿法は、しばしば性能劣化や計算の非効率さに悩まされる。
これにより、注意点の分解として位置符号化法を再解釈する統一的なフレームワークを乗法変換と加法バイアスに置き換える。
この観点は、相対的な位置埋め込みや注意バイアスの適度なアプローチといった一般的なアプローチを仮定するだけでなく、長距離依存を扱う上で固有の制限を露呈する。
本稿では、適応周波数変調と線形・対数・平方根項を組み込んだ複雑に設計された減衰バイアスを利用する適応的位置符号化(APE)を導入する。
我々の理論的解析は、無限コンテキスト外挿条件を確立し、ソフトマックス正規化は、長距離相関、エントロピー境界性、勾配位置感度を保ちながら、非有界列上で明確に定義されていることを保証している。
我々は、TinyStoriesデータセットの実験ケーススタディと、最大32,000語までのストーリーを含む新しい合成データセット \emph{Long Tiny Stories} で、この主張を裏付ける。
関連コード、データセット、モデルの重み付けはhttps://anonymous.4open.science/r/Check-2DAD/で確認できる。
関連論文リスト
- Dimension-free error estimate for diffusion model and optimal scheduling [22.20348860913421]
拡散生成モデルは、経験的に観察された分布から合成データを生成するための強力なツールとして登場した。
従来の分析では、生成したデータと真のデータ分布の誤差を、ワッサーシュタイン距離やクルバック・リーバーの偏差の観点から定量化していた。
本研究では, 生成したデータ分布と真のデータ分布との相違点に有意な次元自由境界を導出する。
論文 参考訳(メタデータ) (2025-12-01T15:58:20Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Context-aware Biases for Length Extrapolation [0.19116784879310025]
長さ補間のための付加的RPE, コンテキスト認識バイアス(CABLE)を提案する。
CABLEはトークン固有のコンテキスト認識バイアスをトランスフォーマーで学習する。
提案手法は,FineWeb-Edu-10BおよびWikiText-103データセット上でテストされた既存のRPE手法の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-11T05:54:58Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding [89.52931576290976]
本研究では,コンテキストbfTextualized equivaritextbfAnt textbfPosition textbfEncoding(textbfTAPE)を提案する。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-01-01T03:23:00Z) - Tilt your Head: Activating the Hidden Spatial-Invariance of Classifiers [0.7704032792820767]
ディープニューラルネットワークは、日々の生活の多くの領域に適用されている。
これらは、空間的に変換された入力信号に頑健に対処するなど、依然として必須の能力が欠如している。
本稿では,ニューラルネットの推論過程をエミュレートする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T09:47:29Z) - Efficient and Near-Optimal Smoothed Online Learning for Generalized
Linear Functions [28.30744223973527]
我々は,K-wise線形分類において,統計学的に最適なログ(T/sigma)の後悔を初めて楽しむ計算効率のよいアルゴリズムを提案する。
一般化線形分類器によって誘導される不一致領域の幾何学の新たな特徴付けを開発する。
論文 参考訳(メタデータ) (2022-05-25T21:31:36Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。