論文の概要: Base of RoPE Bounds Context Length
- arxiv url: http://arxiv.org/abs/2405.14591v1
- Date: Thu, 23 May 2024 14:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 14:45:33.905850
- Title: Base of RoPE Bounds Context Length
- Title(参考訳): RoPE境界コンテキスト長の基礎
- Authors: Xin Men, Mingyu Xu, Bingning Wang, Qingyu Zhang, Hongyu Lin, Xianpei Han, Weipeng Chen,
- Abstract要約: 回転位置埋め込み (RoPE) は、位置情報を回転行列で符号化する技法である。
本稿では, LLM が OOD 理論に基づく表層長文能力を得る可能性があることを明らかにする。
我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。
- 参考スコア(独自算出の注目度): 37.11078116104313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Position embedding is a core component of current Large Language Models (LLMs). Rotary position embedding (RoPE), a technique that encodes the position information with a rotation matrix, has been the de facto choice for position embedding in many LLMs, such as the Llama series. RoPE has been further utilized to extend long context capability, which is roughly based on adjusting the \textit{base} parameter of RoPE to mitigate out-of-distribution (OOD) problems in position embedding. However, in this paper, we find that LLMs may obtain a superficial long-context ability based on the OOD theory. We revisit the role of RoPE in LLMs and propose a novel property of long-term decay, we derive that the \textit{base of RoPE bounds context length}: there is an absolute lower bound for the base value to obtain certain context length capability. Our work reveals the relationship between context length and RoPE base both theoretically and empirically, which may shed light on future long context training.
- Abstract(参考訳): 位置埋め込みは、現在のLarge Language Models(LLM)の中核的なコンポーネントである。
回転位置埋め込み(RoPE)は、回転行列で位置情報を符号化する技法であり、ラムラ級数のような多くのLLMに位置情報を埋め込むための事実上の選択肢である。
RoPEはさらに長いコンテキスト能力を拡張するために利用されており、大まかに言えば、位置埋め込みにおけるアウト・オブ・ディストリビューション(OOD)問題を緩和するために、RoPEの \textit{base} パラメータを調整することに基づいている。
しかし,本論文では,LLMがOOD理論に基づく表面長文能力を得る可能性がある。
我々は LLM における RoPE の役割を再検討し、長期的減衰の新たな性質を提唱し、RoPE 境界コンテキスト長の \textit{base} を導出する。
我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。
関連論文リスト
- What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-06-19T07:23:33Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。