論文の概要: Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective
- arxiv url: http://arxiv.org/abs/2406.13282v1
- Date: Wed, 19 Jun 2024 07:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 22:49:46.551625
- Title: Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective
- Title(参考訳): 長期 LLM の RoPE 拡張を理解する: 留意点
- Authors: Meizhi Zhong, Chen Zhang, Yikun Lei, Xikai Liu, Yan Gao, Yao Hu, Kehai Chen, Min Zhang,
- Abstract要約: 本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 35.947737679664016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling LLMs to handle lengthy context is currently a research hotspot. Most LLMs are built upon rotary position embedding (RoPE), a popular position encoding method. Therefore, a prominent path is to extrapolate the RoPE trained on comparably short texts to far longer texts. A heavy bunch of efforts have been dedicated to boosting the extrapolation via extending the formulations of the RoPE, however, few of them have attempted to showcase their inner workings comprehensively. In this paper, we are driven to offer a straightforward yet in-depth understanding of RoPE extensions from an attention perspective and on two benchmarking tasks. A broad array of experiments reveals several valuable findings: 1) Maintaining attention patterns to those at the pretrained length improves extrapolation; 2) Large attention uncertainty leads to retrieval errors; 3) Using longer continual pretraining lengths for RoPE extensions could reduce attention uncertainty and significantly enhance extrapolation.
- Abstract(参考訳): 長いコンテキストを扱うためのLLMの導入は、現在研究ホットスポットとなっている。
ほとんどのLLMは回転位置埋め込み(RoPE)に基づいて構築されており、一般的な位置符号化法である。
したがって、顕著なパスは、比較可能な短いテキストで訓練されたRoPEを、はるかに長いテキストに外挿することである。
RoPEの定式化を延長することで、外挿の強化に多くの努力が注がれているが、その内装を包括的に展示しようとする試みは、ほとんどない。
本稿では,RoPE拡張の注意点と2つのベンチマークタスクについて,直接的かつ詳細な理解を提供することを推進している。
幅広い実験によって、いくつかの貴重な発見が明らかになりました。
1)事前訓練された長さの者に対する注意パターンの維持は、外挿を改善する。
2) 大きな注意の不確実性は,検索エラーにつながる。
3)RoPE延長の延長前訓練長は注意不確実性を低減し,外挿を著しく向上させる可能性がある。
関連論文リスト
- HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - On the token distance modeling ability of higher RoPE attention dimension [76.55792402912027]
本研究では,注目ヘッドの隠蔽次元と長距離依存の捕捉への寄与との関係について検討する。
我々は、様々な長さ計測モデルから特定の種類の注意ヘッドを同定し、位置頭部と命名した。
これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、長い入力処理において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-10-11T10:47:02Z) - Round and Round We Go! What makes Rotary Positional Encodings useful? [15.543752938828831]
メカニカルレベルでの RoPE の使用方法を理解するため, トレーニングされた Gemma 7B モデルの内部構造について検討した。
Gemma は,RoPE を用いて高周波数を利用してロバストな「位置的」アテンションパターンを構築することを学ぶ。
強調された問題を修正し、性能を向上するRoPEの修正を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:07:01Z) - Mixture of In-Context Experts Enhance LLMs' Long Context Awareness [51.65245442281049]
大規模言語モデル(LLM)は、異なる文脈の位置に対する不均一な認識を示す。
本稿では,この課題に対処するため,"Mixture of In-Context Experts" (MoICE) という新しい手法を提案する。
MoICEには2つの重要なコンポーネントがある: LLM内の各アテンションヘッドに統合されたルータと、軽量なルータのみのトレーニング最適化戦略である。
論文 参考訳(メタデータ) (2024-06-28T01:46:41Z) - Base of RoPE Bounds Context Length [37.11078116104313]
回転位置埋め込み (RoPE) は、位置情報を回転行列で符号化する技法である。
本稿では, LLM が OOD 理論に基づく表層長文能力を得る可能性があることを明らかにする。
我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。
論文 参考訳(メタデータ) (2024-05-23T14:03:31Z) - Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding [40.289596031245374]
大型言語モデル(LLM)を含むトランスフォーマーベースのモデルは全て、プリセットされた長さ制限に悩まされる。
トランスフォーマーの長さ外挿を強化するために多くの方法が出現している。
本調査は,読者が既存の手法を深く理解し,今後の研究に刺激を与えることを目的としている。
論文 参考訳(メタデータ) (2023-12-28T14:42:24Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。
PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文 参考訳(メタデータ) (2023-05-23T23:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。