論文の概要: Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
- arxiv url: http://arxiv.org/abs/2412.17739v1
- Date: Mon, 23 Dec 2024 17:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:53.564358
- Title: Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
- Title(参考訳): Fourier Position Embedding: 長さ一般化のための注意の周期的拡張を強化する
- Authors: Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Ning Ding, Youbang Sun, Biqing Qi, Yuchen Fan, Xue Kai Zhu, Bowen Zhou,
- Abstract要約: 回転位置埋め込み(RoPE)は非均一離散フーリエ変換を暗黙的に達成することで周期的に注意を向けることができることを示す。
この周期性は,1) 線形層と注意領域外の活性化機能,2) 時間領域切断による周波数成分の不足によるスペクトル損傷によって損なわれている。
本稿では,FoPE (Fourier Position Embedding) を提案する。
- 参考スコア(独自算出の注目度): 23.936687072300053
- License:
- Abstract: Extending the context length of Language Models (LMs) by improving Rotary Position Embedding (RoPE) has become a trend. While existing works mainly address RoPE's limitations within attention mechanism, this paper provides an analysis across nearly all parts of LMs, uncovering their adverse effects on length generalization for RoPE-based attention. Using Discrete Signal Processing theory, we show that RoPE enables periodic attention by implicitly achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is undermined by the spectral damage caused by: 1) linear layers and activation functions outside of attention; 2) insufficiently trained frequency components brought by time-domain truncation. Building on our observations, we propose Fourier Position Embedding (FoPE), which enhances attention's frequency-domain properties to improve both its periodic extension and length generalization. FoPE constructs Fourier Series and zero-outs the destructive frequency components, increasing model robustness against the spectrum damage. Experiments across various model scales show that, within varying context windows, FoPE can maintain a more stable perplexity and a more consistent accuracy in a needle-in-haystack task compared to RoPE and ALiBi. Several analyses and ablations bring further support to our method and theoretical modeling.
- Abstract(参考訳): ロータリー位置埋め込み(RoPE)を改善することで言語モデル(LM)の文脈長を拡張することがトレンドとなっている。
既存の研究は主に注意機構内のRoPEの限界に対処するが、本論文はLMのほぼすべての部分について解析を行い、RoPEに基づく注意の時間的一般化に対する悪影響を明らかにする。
離散信号処理理論を用いて、非均一離散フーリエ変換を暗黙的に達成することにより、RoPEが周期的な注意を可能にすることを示す。
しかし、この周期性は、以下のスペクトル損傷によって損なわれる。
1) 注意以外の線状層及び活性化機能
2)時間領域切断による周波数成分の訓練は不十分であった。
本稿では,FoPE(Fourier Position Embedding)を提案する。これは周期的拡張と長さ一般化の両方を改善するために,注意の周波数領域特性を向上させるものである。
FoPEはフーリエ級数を構築し、破壊周波数成分をゼロアウトさせ、スペクトル損傷に対するモデルロバスト性を増大させる。
様々なモデルスケールでの実験では、さまざまなコンテキストウィンドウにおいて、FoPEはRoPEやALiBiと比較して、より安定したパープレキシティと一貫性のある精度を維持することができる。
いくつかの解析と改善は、我々の方法と理論モデリングにさらなる支援をもたらす。
関連論文リスト
- HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Beyond position: how rotary embeddings shape representations and memory in autoregressive transfomers [7.3645788720974465]
RoPE(Rotary Positional Embeddings)は、Transformerモデルにおける位置符号化を強化する。
本稿では,RoPEが位置依存回転を導入し,トークン埋め込みにおける位相シフトを引き起こす方法について検討する。
論文 参考訳(メタデータ) (2024-10-23T17:48:28Z) - Few-shot NeRF by Adaptive Rendering Loss Regularization [78.50710219013301]
スパース入力を用いた新しいビュー合成はニューラルラジアンス場(NeRF)に大きな課題をもたらす
近年の研究では、位置レンダリングの周波数規則化は、数発のNeRFに対して有望な結果が得られることが示されている。
我々は,AR-NeRFと呼ばれる数発のNeRFに対して適応レンダリング損失正規化を提案する。
論文 参考訳(メタデータ) (2024-10-23T13:05:26Z) - FAN: Fourier Analysis Networks [47.08787684221114]
本稿では、周期現象を効率的にモデル化し、推論する能力を高めるFANを提案する。
本研究では, 周期関数のモデル化と推論におけるFANの有効性と, 実世界のタスクにおけるFANの優位性と一般化性を示す。
論文 参考訳(メタデータ) (2024-10-03T17:02:21Z) - Frequency and Generalisation of Periodic Activation Functions in Reinforcement Learning [9.6812227037557]
周期的なアクティベーションは低周波表現を学習し、その結果、ブートストラップされたターゲットへの過度な適合を避けることが示される。
また、重み減衰正則化は周期的活性化関数のオーバーフィットを部分的に相殺できることを示す。
論文 参考訳(メタデータ) (2024-07-09T11:07:41Z) - Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-06-19T07:23:33Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z) - Frequency-domain MLPs are More Effective Learners in Time Series
Forecasting [67.60443290781988]
時系列予測は、金融、交通、エネルギー、医療など、さまざまな産業領域において重要な役割を果たしてきた。
最多ベースの予測手法は、ポイントワイドマッピングと情報のボトルネックに悩まされる。
本稿では、時系列予測のための周波数領域上に構築された、シンプルで効果的なアーキテクチャであるFreTSを提案する。
論文 参考訳(メタデータ) (2023-11-10T17:05:13Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - DEPTS: Deep Expansion Learning for Periodic Time Series Forecasting [83.60876685008225]
PTS予測のための深層拡張学習フレームワークDEPTSを導入する。
DEPTSは、周期状態を隠れ変数として導入することで、分離された定式化から始まる。
我々の2つのカスタマイズされたモジュールは、局所的なモーメントまたはグローバルな周期性に予測を帰属させるなど、ある程度の解釈可能な能力を持っている。
論文 参考訳(メタデータ) (2022-03-15T06:51:58Z) - Deep Autoregressive Models with Spectral Attention [74.08846528440024]
本稿では,深部自己回帰モデルとスペクトル注意(SA)モジュールを組み合わせた予測アーキテクチャを提案する。
時系列の埋め込みをランダムなプロセスの発生としてスペクトル領域に特徴付けることにより,グローバルな傾向と季節パターンを同定することができる。
時系列に対するグローバルとローカルの2つのスペクトルアテンションモデルは、この情報を予測の中に統合し、スペクトルフィルタリングを行い、時系列のノイズを除去する。
論文 参考訳(メタデータ) (2021-07-13T11:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。