論文の概要: PSC: Extending Context Window of Large Language Models via Phase Shift Calibration
- arxiv url: http://arxiv.org/abs/2505.12423v1
- Date: Sun, 18 May 2025 13:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.225314
- Title: PSC: Extending Context Window of Large Language Models via Phase Shift Calibration
- Title(参考訳): PSC: 位相シフト校正による大規模言語モデルのコンテキストウィンドウの拡張
- Authors: Wenqiao Zhu, Chao Xu, Lulu Wang, Jun Wu,
- Abstract要約: 近年,RoPEに基づくコンテキストウィンドウをさらに拡張する手法が数多く提案されている。
PSC(Phase Shift)は、既存の手法で事前に定義された周波数を調整するための小さなモジュールである。
複数のモデルやタスクにまたがる広範な実験を行った。
- 参考スコア(独自算出の注目度): 10.30428210419642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rotary Position Embedding (RoPE) is an efficient position encoding approach and is widely utilized in numerous large language models (LLMs). Recently, a lot of methods have been put forward to further expand the context window based on RoPE. The core concept of those methods is to predefine or search for a set of factors to rescale the base frequencies of RoPE. Nevertheless, it is quite a challenge for existing methods to predefine an optimal factor due to the exponential search space. In view of this, we introduce PSC (Phase Shift Calibration), a small module for calibrating the frequencies predefined by existing methods. With the employment of PSC, we demonstrate that many existing methods can be further enhanced, like PI, YaRN, and LongRoPE. We conducted extensive experiments across multiple models and tasks. The results demonstrate that (1) when PSC is enabled, the comparative reductions in perplexity increase as the context window size is varied from 16k, to 32k, and up to 64k. (2) Our approach is broadly applicable and exhibits robustness across a variety of models and tasks. The code can be found at https://github.com/WNQzhu/PSC.
- Abstract(参考訳): ロータリー位置埋め込み(RoPE)は効率的な位置符号化手法であり、多数の大規模言語モデル(LLM)で広く利用されている。
近年,RoPEに基づくコンテキストウィンドウをさらに拡張する手法が数多く提案されている。
これらの手法の中核となる概念は、RoPEの基本周波数を再スケールするための要素のセットを事前に定義または探索することである。
それでも、指数探索空間による最適因子の事前定義は、既存の手法にとって非常に困難である。
そこで我々は,既存の手法で事前に定義された周波数を校正する小型モジュールであるPSC(Phase Shift Calibration)を導入する。
PSCの活用により,PI,YarRN,LongRoPEなどの既存手法をさらに強化できることが実証された。
複数のモデルやタスクにまたがる広範な実験を行った。
その結果,(1)PSCを有効にすると,コンテクストウィンドウサイズが16kから32k,最大64kに変化するにつれて,パープレキシティの低下が増加することがわかった。
2)我々のアプローチは広く適用可能であり,様々なモデルやタスクにまたがる堅牢性を示す。
コードはhttps://github.com/WNQzhu/PSCで見ることができる。
関連論文リスト
- Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation [60.22622442950905]
大型言語モデル(LLM)は、入力トークンの数がトレーニング済みの長さを超えると、コヒーレントなコンテキストを処理し、生成するのに苦労することが多い。
長文拡張の最近の進歩は、LLMのコンテキストウィンドウを大きく拡張した。
LLMのコンテキストウィンドウを外挿するためのDPE(Dmension-Wise Positional Embeddings Manipulation)を提案する。
論文 参考訳(メタデータ) (2025-04-26T08:46:10Z) - PIP: Perturbation-based Iterative Pruning for Large Language Models [5.511065308044068]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。
実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文 参考訳(メタデータ) (2025-01-25T17:10:50Z) - Extending Context Window of Large Language Models from a Distributional Perspective [29.313701168816507]
本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。
本稿では,回転角分布の乱れを最小限に抑える新しい拡張戦略を提案する。
提案手法は,既存の最先端手法よりも平均4.33%向上する。
論文 参考訳(メタデータ) (2024-10-02T12:40:11Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - 2D Matryoshka Sentence Embeddings [11.682642816354418]
textitTwo-dimensional Matryoshka Sentence Embedding (2DMSE)footnote。
埋め込みサイズとトランスフォーマー層の両方の弾性設定をサポートし、MRLよりも柔軟性と効率性が高い。
実験により, 異なる埋め込みサイズとトランスフォーマー層を動的に支持する上で, 提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-02-22T18:35:05Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。