論文の概要: Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
- arxiv url: http://arxiv.org/abs/2412.17739v4
- Date: Mon, 14 Jul 2025 04:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:06.776754
- Title: Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
- Title(参考訳): Fourier Position Embedding: 長さ一般化のための注意の周期的拡張を強化する
- Authors: Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Youbang Sun, Yuchen Fan, Xuekai Zhu, Biqing Qi, Ning Ding, Bowen Zhou,
- Abstract要約: 回転位置埋め込み(RoPE)は非均一離散フーリエ変換を暗黙的に達成することで周期的に注意を向けることができることを示す。
本稿では,FoPE(Fourier Position Embedding)を提案する。
- 参考スコア(独自算出の注目度): 23.936687072300053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extending the context length of Language Models (LMs) by improving Rotary Position Embedding (RoPE) has become a trend. While prior works mainly address RoPE's limitations within attention, this paper uncovers the adverse effects on length generalization from nearly all parts of LMs. Using Discrete Signal Processing theory, we show that RoPE enables periodic attention by implicitly achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is undermined by the spectrum damage caused by: 1) linear layers and activation functions; 2) insufficiently trained frequency components brought by time-domain truncation. Building on our observations, we propose Fourier Position Embedding (FoPE), which enhances attention's frequency-domain properties to improve both its periodic extension and length generalization. FoPE constructs \textit{Fourier Series} and zero-outs the destructive frequency components, increasing model robustness against the spectrum damage. Experiments across various model scales and benchmarks show that, within varying context windows, FoPE maintains a more stable performance compared to other baselines. Several analyses and ablations bring further support to our method and theoretical modeling.
- Abstract(参考訳): ロータリー位置埋め込み(RoPE)を改善することで言語モデル(LM)の文脈長を拡張することがトレンドとなっている。
従来の研究は主にRoPEの注意領域における限界に対処するものであるが,本論文はLMのほぼすべての部分から長さ一般化に対する悪影響を明らかにする。
離散信号処理理論を用いて、非均一離散フーリエ変換を暗黙的に達成することにより、RoPEが周期的な注意を可能にすることを示す。
しかし、この周期性は、下記のスペクトル損傷によって損なわれている。
1) 線形層及び活性化機能
2)時間領域切断による周波数成分の訓練は不十分であった。
本稿では,FoPE(Fourier Position Embedding)を提案する。これは周期的拡張と長さ一般化の両方を改善するために,注意の周波数領域特性を向上させるものである。
FoPE は \textit{Fourier Series} を構成し、破壊周波数成分をゼロアウトし、スペクトル損傷に対するモデルロバスト性を高める。
さまざまなモデルスケールとベンチマークの実験では、さまざまなコンテキストウィンドウにおいて、FoPEは他のベースラインよりも安定したパフォーマンスを維持している。
いくつかの解析と改善は、我々の方法と理論モデリングにさらなる支援をもたらす。
関連論文リスト
- Frequency-Constrained Learning for Long-Term Forecasting [15.31488551912888]
実世界の時系列は、物理法則、人間のルーチン、季節周期から生じる強い周期構造を示す。
現代の深層予測モデルは、スペクトルバイアスと周波数認識による誘導前兆の欠如により、繰り返し発生するパターンを捉えることができないことが多い。
本稿では,周期性を明示的にモデル化し,長期予測を効果的に行う手法を提案する。
論文 参考訳(メタデータ) (2025-08-02T22:12:15Z) - Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models [4.105127179940934]
VLM(Vision-Language Models)は、マルチモーダルタスクにおいて大きな進歩を遂げた。
しかし、長文のシナリオではパフォーマンスが劣化することが多い。
本稿では,VLMの長文処理能力を改善するために,位置埋め込みのハイブリッドであるHoPEを提案する。
論文 参考訳(メタデータ) (2025-05-26T18:37:40Z) - Of All StrIPEs: Investigating Structure-informed Positional Encoding for Efficient Music Generation [1.3108652488669736]
効率的なPEの両ファミリを解析するためのカーネル手法に基づく統一的なフレームワークを提案する。
我々は,時間的シーケンスから因果関係を抽出できるRoPEと呼ばれる新しいPE手法を開発した。
経験的検証のために、私たちは象徴的な音楽生成タスク、すなわちメロディ調和を使用する。
論文 参考訳(メタデータ) (2025-04-07T11:51:29Z) - MFRS: A Multi-Frequency Reference Series Approach to Scalable and Accurate Time-Series Forecasting [51.94256702463408]
時系列予測は、周波数の異なる周期特性から導かれる。
マルチ周波数参照系列相関解析に基づく新しい時系列予測手法を提案する。
主要なオープンデータセットと合成データセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T11:40:14Z) - VideoRoPE: What Makes for Good Video Rotary Position Embedding? [109.88966080843608]
VideoRoPEは、長いビデオ検索、ビデオ理解、ビデオ幻覚といった様々な下流タスクにまたがって、従来型のRoPEを一貫して上回っている。
VideoRoPEは、周期的振動を緩和するためのテキスト低周波時間割当、空間対称性を維持するためのテキスト対角配置、時間的および空間的インデックスを分離するためのテキスト調整可能な時間間隔を備えている。
論文 参考訳(メタデータ) (2025-02-07T18:56:04Z) - FreEformer: Frequency Enhanced Transformer for Multivariate Time Series Forecasting [17.738942892605234]
本稿は,textbfFrequency textbfEnhanced Transtextbfformerを利用した,シンプルで効果的なモデルである textbfFreEformerを提案する。
実験により、FreEformerは18の現実世界のベンチマークで最先端のモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-01-23T08:53:45Z) - HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Beyond position: how rotary embeddings shape representations and memory in autoregressive transfomers [7.3645788720974465]
RoPE(Rotary Positional Embeddings)は、Transformerモデルにおける位置符号化を強化する。
本稿では,RoPEが位置依存回転を導入し,トークン埋め込みにおける位相シフトを引き起こす方法について検討する。
論文 参考訳(メタデータ) (2024-10-23T17:48:28Z) - Few-shot NeRF by Adaptive Rendering Loss Regularization [78.50710219013301]
スパース入力を用いた新しいビュー合成はニューラルラジアンス場(NeRF)に大きな課題をもたらす
近年の研究では、位置レンダリングの周波数規則化は、数発のNeRFに対して有望な結果が得られることが示されている。
我々は,AR-NeRFと呼ばれる数発のNeRFに対して適応レンダリング損失正規化を提案する。
論文 参考訳(メタデータ) (2024-10-23T13:05:26Z) - Frequency and Generalisation of Periodic Activation Functions in Reinforcement Learning [9.6812227037557]
周期的なアクティベーションは低周波表現を学習し、その結果、ブートストラップされたターゲットへの過度な適合を避けることが示される。
また、重み減衰正則化は周期的活性化関数のオーバーフィットを部分的に相殺できることを示す。
論文 参考訳(メタデータ) (2024-07-09T11:07:41Z) - Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-06-19T07:23:33Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Frequency-domain MLPs are More Effective Learners in Time Series
Forecasting [67.60443290781988]
時系列予測は、金融、交通、エネルギー、医療など、さまざまな産業領域において重要な役割を果たしてきた。
最多ベースの予測手法は、ポイントワイドマッピングと情報のボトルネックに悩まされる。
本稿では、時系列予測のための周波数領域上に構築された、シンプルで効果的なアーキテクチャであるFreTSを提案する。
論文 参考訳(メタデータ) (2023-11-10T17:05:13Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - DEPTS: Deep Expansion Learning for Periodic Time Series Forecasting [83.60876685008225]
PTS予測のための深層拡張学習フレームワークDEPTSを導入する。
DEPTSは、周期状態を隠れ変数として導入することで、分離された定式化から始まる。
我々の2つのカスタマイズされたモジュールは、局所的なモーメントまたはグローバルな周期性に予測を帰属させるなど、ある程度の解釈可能な能力を持っている。
論文 参考訳(メタデータ) (2022-03-15T06:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。