論文の概要: HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation
- arxiv url: http://arxiv.org/abs/2410.21216v1
- Date: Mon, 28 Oct 2024 17:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:16.518237
- Title: HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation
- Title(参考訳): HoPE: 文脈認識と外挿の強化のための長期劣化のない新しい位置エンコーディング
- Authors: Yuhan Chen, Ang Lv, Jian Luan, Bin Wang, Wei Liu,
- Abstract要約: 位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
- 参考スコア(独自算出の注目度): 19.42279057349193
- License:
- Abstract: Many positional encodings (PEs) are designed to exhibit long-term decay, based on an entrenched and long-standing inductive opinion: tokens farther away from the current position carry less relevant information. We argue that long-term decay is outdated in the era of LLMs, as LLMs are now applied to tasks demanding precise retrieval of in-context information from arbitrary positions. Firstly, we present empirical analyses on various PEs, demonstrating that models inherently learn attention with only a local-decay pattern while forming a U-shape pattern globally, contradicting the principle of long-term decay. Furthermore, we conduct a detailed analysis of rotary position encoding (RoPE, a prevalent relative positional encoding in LLMs), and found that the U-shape attention is caused by some learned components, which are also the key factor limiting RoPE's expressiveness and extrapolation.Inspired by these insights, we propose High-frequency rotary Position Encoding (HoPE). HoPE replaces the specific components in RoPE with position-independent ones, retaining only high-frequency signals, which also breaks the principle of long-term decay in theory. HoPE achieves two major advantages: (1) Without constraints imposed by long-term decay, contradictory factors that limit spontaneous attention optimization and model extrapolation performance are removed. (2) Components representing positions and semantics are are optimized. These enhances model's context awareness and extrapolation, as validated by extensive experiments.
- Abstract(参考訳): 多くの位置符号化(PE)は、定着し長期にわたる帰納的意見に基づいて、長期的な減衰を示すように設計されている。
我々は、LLMが任意の位置からコンテキスト内情報の正確な検索を要求するタスクに適用されたため、LLMの時代において長期の減衰は時代遅れであると主張している。
まず,U字型パターンを世界規模で形成しながら,局所的デカイパターンのみを用いて,モデルが本質的に注意を学習していることを示し,長期的崩壊の原理に矛盾することを示す。
さらに、回転位置符号化 (RoPE) の詳細な解析を行い、U字型注意は、RoPEの表現性や外挿を制限する重要な要素である学習成分によって引き起こされていることを発見し、これらの知見に着想を得て、高周波回転位置符号化 (HoPE) を提案する。
HoPEは、RoPEの特定の成分を位置に依存しない成分に置き換え、高周波信号のみを保持し、理論上の長期減衰の原理を破る。
1)長期的減衰による制約がなければ、自発的注意最適化を制限する矛盾要因とモデル外挿性能が排除される。
2) 位置と意味を表すコンポーネントが最適化される。
これらは、広範囲な実験によって検証されるように、モデルのコンテキスト認識と外挿を強化する。
関連論文リスト
- When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。
我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。
我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文 参考訳(メタデータ) (2024-11-20T17:22:31Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - On the token distance modeling ability of higher RoPE attention dimension [76.55792402912027]
本研究では,注目ヘッドの隠蔽次元と長距離依存の捕捉への寄与との関係について検討する。
我々は、様々な長さ計測モデルから特定の種類の注意ヘッドを同定し、位置頭部と命名した。
これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、長い入力処理において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-10-11T10:47:02Z) - Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-06-19T07:23:33Z) - 3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding [12.335958945925437]
3Dロータリー位置(3D-RPE)と呼ばれる3次元球面上の新しい回転位置符号化法を提案する。
3D-RPEは広く使われている2Dロータリーポジション(RoPE)の先進型である。
制御可能な長期崩壊に対して、3D-RPEはチャンクサイズ内での長期崩壊の制御を可能にする。
位置分解能を高めるため、3D-RPEはRoPE上の位置分解能の劣化を軽減することができる。
論文 参考訳(メタデータ) (2024-06-14T10:13:37Z) - Base of RoPE Bounds Context Length [37.11078116104313]
回転位置埋め込み (RoPE) は、位置情報を回転行列で符号化する技法である。
本稿では, LLM が OOD 理論に基づく表層長文能力を得る可能性があることを明らかにする。
我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。
論文 参考訳(メタデータ) (2024-05-23T14:03:31Z) - Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。
位置符号化を伴わない変圧器長一般化特性について検討する。
NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文 参考訳(メタデータ) (2024-04-18T14:38:32Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - DEPTS: Deep Expansion Learning for Periodic Time Series Forecasting [83.60876685008225]
PTS予測のための深層拡張学習フレームワークDEPTSを導入する。
DEPTSは、周期状態を隠れ変数として導入することで、分離された定式化から始まる。
我々の2つのカスタマイズされたモジュールは、局所的なモーメントまたはグローバルな周期性に予測を帰属させるなど、ある程度の解釈可能な能力を持っている。
論文 参考訳(メタデータ) (2022-03-15T06:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。