論文の概要: Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation
- arxiv url: http://arxiv.org/abs/2504.18857v1
- Date: Sat, 26 Apr 2025 08:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.020819
- Title: Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation
- Title(参考訳): Dimension-Wise Positional Embeddings Manipulation による有効長外挿法
- Authors: Yi Lu, Wanxu Zhao, Xin Zhou, Chenxin An, Chenglong Wang, Shuo Li, Yuming Yang, Jun Zhao, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 大型言語モデル(LLM)は、入力トークンの数がトレーニング済みの長さを超えると、コヒーレントなコンテキストを処理し、生成するのに苦労することが多い。
長文拡張の最近の進歩は、LLMのコンテキストウィンドウを大きく拡張した。
LLMのコンテキストウィンドウを外挿するためのDPE(Dmension-Wise Positional Embeddings Manipulation)を提案する。
- 参考スコア(独自算出の注目度): 60.22622442950905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often struggle to process and generate coherent context when the number of input tokens exceeds the pre-trained length. Recent advancements in long-context extension have significantly expanded the context window of LLMs but require expensive overhead to train the large-scale models with longer context. In this work, we propose Dimension-Wise Positional Embeddings Manipulation (DPE), a training-free framework to extrapolate the context window of LLMs by diving into RoPE's different hidden dimensions. Instead of manipulating all dimensions equally, DPE detects the effective length for every dimension and finds the key dimensions for context extension. We reuse the original position indices with their embeddings from the pre-trained model and manipulate the key dimensions' position indices to their most effective lengths. In this way, DPE adjusts the pre-trained models with minimal modifications while ensuring that each dimension reaches its optimal state for extrapolation. DPE significantly surpasses well-known baselines such as YaRN and Self-Extend. DPE enables Llama3-8k 8B to support context windows of 128k tokens without continual training and integrates seamlessly with Flash Attention 2. In addition to its impressive extrapolation capability, DPE also dramatically improves the models' performance within training length, such as Llama3.1 70B, by over 18 points on popular long-context benchmarks RULER. When compared with commercial models, Llama 3.1 70B with DPE even achieves better performance than GPT-4-128K.
- Abstract(参考訳): 大規模言語モデル(LLM)は、入力トークンの数がトレーニング済みの長さを超えると、コヒーレントなコンテキストを処理し、生成するのに苦労することが多い。
長文拡張の最近の進歩は、LLMのコンテキストウィンドウを大幅に拡張しているが、より長いコンテキストで大規模モデルを訓練するためには、高価なオーバーヘッドを必要とする。
本研究では,RoPEの異なる隠蔽次元に飛び込み,LLMのコンテキストウインドウを外挿するトレーニング不要なフレームワークであるDPEを提案する。
全ての次元を等しく操作する代わりに、DPEはすべての次元の有効長さを検出し、文脈拡張の鍵となる次元を見つける。
我々は、事前訓練されたモデルからの埋め込みで元の位置指標を再利用し、鍵次元の位置指標を最も有効な長さに操作する。
このように、DPEはトレーニング済みのモデルを最小限の変更で調整し、各次元が外挿のために最適な状態に達することを保証する。
DPEはYarnやSelf-Extendといった有名なベースラインをはるかに上回っている。
DPEにより、Llama3-8k 8Bは、継続トレーニングなしで、128kトークンのコンテキストウィンドウをサポートし、Flash Attention 2.0とシームレスに統合できる。
優れた補間能力に加えて、DPEはLlama3.1 70Bのようなトレーニング期間内のモデルの性能を18ポイント以上向上させた。
商用モデルと比較すると、DPEのLlama 3.1 70BはGPT-4-128Kよりも性能が良い。
関連論文リスト
- LongRoPE2: Near-Lossless LLM Context Window Scaling [46.936900701411965]
LongRoPE2は、トレーニング済みの大規模言語モデル(LLM)の効果的なコンテキストウィンドウをターゲット長に拡張する、新しいアプローチである。
提案手法は,(1) 従来の手法で観測された分布外問題に対して,RoPE次元のトレーニングが不十分であるという仮説,(2) 不十分なトレーニング問題に対処するために,"needle-driven" パープレクシリティによって導かれる進化的探索を採用する効果的なRoPE再スケーリングアルゴリズム,(3) 細管モデル重みを長文配列に適用するための混合コンテキストウィンドウトレーニングアプローチ,の3つによって達成される。
論文 参考訳(メタデータ) (2025-02-27T13:41:07Z) - Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [7.833740464264734]
現在の拡張コンテキストウィンドウは約128kトークンに制限されている。
LongRoPEは、事前訓練されたLLMのコンテキストウィンドウを2048kトークンに拡張する。
論文 参考訳(メタデータ) (2024-02-21T12:30:33Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。