論文の概要: Position Encoding with Random Float Sampling Enhances Length Generalization of Transformers
- arxiv url: http://arxiv.org/abs/2602.14050v1
- Date: Sun, 15 Feb 2026 08:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.627693
- Title: Position Encoding with Random Float Sampling Enhances Length Generalization of Transformers
- Title(参考訳): ランダムフロートサンプリングによる変圧器の長さ一般化による位置符号化
- Authors: Atsushi Shimizu, Shohei Taniguchi, Yutaka Matsuo,
- Abstract要約: 我々は,事前学習や微調整で見えない長さによく一般化する,強力な位置符号化(PE)戦略であるランダムフロートサンプリング(RFS)を導入する。
RFSはランダムにサンプリングされた連続的な値を使用するため、トレーニング中にモデルをさまざまな指標に公開することにより、目に見えない長さでのアウト・オブ・ディストリビューション(OOD)の問題を回避することができる。
実験は、RFSがゼロショットコモンセンス推論ベンチマークと同様に長さ一般化タスクにおいて優れたパフォーマンスをもたらすことを示すことによって、その効果を裏付ける。
- 参考スコア(独自算出の注目度): 27.92897019476987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Length generalization is the ability of language models to maintain performance on inputs longer than those seen during pretraining. In this work, we introduce a simple yet powerful position encoding (PE) strategy, Random Float Sampling (RFS), that generalizes well to lengths unseen during pretraining or fine-tuning. In particular, instead of selecting position indices from a predefined discrete set, RFS uses randomly sampled continuous values, thereby avoiding out-of-distribution (OOD) issues on unseen lengths by exposing the model to diverse indices during training. Since assigning indices to tokens is a common and fundamental procedure in widely used PEs, the advantage of RFS can easily be incorporated into, for instance, the absolute sinusoidal encoding, RoPE, and ALiBi. Experiments corroborate its effectiveness by showing that RFS results in superior performance in length generalization tasks as well as zero-shot commonsense reasoning benchmarks.
- Abstract(参考訳): 長さの一般化は、事前訓練中に見られるものよりも長い入力で言語モデルのパフォーマンスを維持する能力である。
本研究では,事前学習や微調整で見えない長さによく一般化する,単純だが強力な位置符号化(PE)戦略であるランダムフロートサンプリング(RFS)を導入する。
特に、事前定義された離散集合から位置指標を選択する代わりに、RFSはランダムにサンプリングされた連続値を使用し、トレーニング中にモデルを様々な指標に露出させることで、未知の長さの分布外問題を回避する。
トークンへのインデックスの割り当ては広く使われているPEにおいて一般的で基本的な手順であるため、例えば絶対正弦波符号化(RoPE)やALiBi(英語版)といった RFS の利点は容易に組み込むことができる。
実験は、RFSがゼロショットコモンセンス推論ベンチマークと同様に長さ一般化タスクにおいて優れたパフォーマンスをもたらすことを示すことによって、その効果を裏付ける。
関連論文リスト
- Predicting LLM Output Length via Entropy-Guided Representations [13.351384070796747]
本稿では,本モデルの内部隠蔽状態を有効長予測のために再利用する軽量フレームワークを提案する。
1) オンザフライアクティベーションとトークンエントロピーを用いて高精度な静的予測を行うEGTP (Entropy-Guided Token Pooling) である。
論文 参考訳(メタデータ) (2026-02-12T10:49:04Z) - Wavelet-based Disentangled Adaptive Normalization for Non-stationary Times Series Forecasting [23.34966767653385]
時系列予測における非定常性に対処するために、ウェーブレットに基づく不整合適応正規化(WDAN)を提案する。
WDANは離散ウェーブレット変換を用いて入力を低周波数トレンドと高周波変動に分解する。
複数のベンチマークの実験では、WDANは様々なバックボーンモデルにおける予測精度を一貫して改善している。
論文 参考訳(メタデータ) (2025-06-06T08:25:29Z) - Position as Probability: Self-Supervised Transformers that Think Past Their Training for Length Extrapolation [0.0]
PRISMは、トランスフォーマーがトレーニング長の10倍まで正確に外挿できる新しい位置符号化機構である。
解析により、PRISMの位置エンコーディングは鋭く解釈可能な内部状態を維持しており、信頼性のある長さ一般化の理論的基礎となっていることが示された。
論文 参考訳(メタデータ) (2025-06-01T09:20:44Z) - Context-aware Biases for Length Extrapolation [0.19116784879310025]
長さ補間のための付加的RPE, コンテキスト認識バイアス(CABLE)を提案する。
CABLEはトークン固有のコンテキスト認識バイアスをトランスフォーマーで学習する。
提案手法は,FineWeb-Edu-10BおよびWikiText-103データセット上でテストされた既存のRPE手法の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-11T05:54:58Z) - On Optimal Sampling for Learning SDF Using MLPs Equipped with Positional Encoding [76.78321723602636]
我々は、好ましくない副作用を伴わずに、正確な暗黙の場を学習するための適切なサンプリング率を決定するツールを考案した。
PEを具備したPEは、PE層の最高周波数成分よりも内在周波数がはるかに高いことが観察された。
SDFフィッティングの設定において,この推奨サンプリングレートは正確なフィッティング結果の確保に十分であることを示す。
論文 参考訳(メタデータ) (2024-01-02T10:51:52Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - FASA: Feature Augmentation and Sampling Adaptation for Long-Tailed
Instance Segmentation [91.129039760095]
ロングテールインスタンスセグメンテーションの最近の手法は、トレーニングデータが少ないレアオブジェクトクラスで未だに苦労している。
本稿では,FASA(Feature Augmentation and Smpling Adaptation)を提案する。
FASAは、標準またはロングテールのセグメンテーションフレームワークに簡単に接続できる、高速で汎用的な方法です。
論文 参考訳(メタデータ) (2021-02-25T14:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。