論文の概要: PSC: Extending Context Window of Large Language Models via Phase Shift Calibration
- arxiv url: http://arxiv.org/abs/2505.12423v1
- Date: Sun, 18 May 2025 13:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.225314
- Title: PSC: Extending Context Window of Large Language Models via Phase Shift Calibration
- Title(参考訳): PSC: 位相シフト校正による大規模言語モデルのコンテキストウィンドウの拡張
- Authors: Wenqiao Zhu, Chao Xu, Lulu Wang, Jun Wu,
- Abstract要約: 近年,RoPEに基づくコンテキストウィンドウをさらに拡張する手法が数多く提案されている。
PSC(Phase Shift)は、既存の手法で事前に定義された周波数を調整するための小さなモジュールである。
複数のモデルやタスクにまたがる広範な実験を行った。
- 参考スコア(独自算出の注目度): 10.30428210419642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rotary Position Embedding (RoPE) is an efficient position encoding approach and is widely utilized in numerous large language models (LLMs). Recently, a lot of methods have been put forward to further expand the context window based on RoPE. The core concept of those methods is to predefine or search for a set of factors to rescale the base frequencies of RoPE. Nevertheless, it is quite a challenge for existing methods to predefine an optimal factor due to the exponential search space. In view of this, we introduce PSC (Phase Shift Calibration), a small module for calibrating the frequencies predefined by existing methods. With the employment of PSC, we demonstrate that many existing methods can be further enhanced, like PI, YaRN, and LongRoPE. We conducted extensive experiments across multiple models and tasks. The results demonstrate that (1) when PSC is enabled, the comparative reductions in perplexity increase as the context window size is varied from 16k, to 32k, and up to 64k. (2) Our approach is broadly applicable and exhibits robustness across a variety of models and tasks. The code can be found at https://github.com/WNQzhu/PSC.
- Abstract(参考訳): ロータリー位置埋め込み(RoPE)は効率的な位置符号化手法であり、多数の大規模言語モデル(LLM)で広く利用されている。
近年,RoPEに基づくコンテキストウィンドウをさらに拡張する手法が数多く提案されている。
これらの手法の中核となる概念は、RoPEの基本周波数を再スケールするための要素のセットを事前に定義または探索することである。
それでも、指数探索空間による最適因子の事前定義は、既存の手法にとって非常に困難である。
そこで我々は,既存の手法で事前に定義された周波数を校正する小型モジュールであるPSC(Phase Shift Calibration)を導入する。
PSCの活用により,PI,YarRN,LongRoPEなどの既存手法をさらに強化できることが実証された。
複数のモデルやタスクにまたがる広範な実験を行った。
その結果,(1)PSCを有効にすると,コンテクストウィンドウサイズが16kから32k,最大64kに変化するにつれて,パープレキシティの低下が増加することがわかった。
2)我々のアプローチは広く適用可能であり,様々なモデルやタスクにまたがる堅牢性を示す。
コードはhttps://github.com/WNQzhu/PSCで見ることができる。
関連論文リスト
- LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文 参考訳(メタデータ) (2025-08-04T11:22:13Z) - Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation [60.22622442950905]
大型言語モデル(LLM)は、入力トークンの数がトレーニング済みの長さを超えると、コヒーレントなコンテキストを処理し、生成するのに苦労することが多い。
長文拡張の最近の進歩は、LLMのコンテキストウィンドウを大きく拡張した。
LLMのコンテキストウィンドウを外挿するためのDPE(Dmension-Wise Positional Embeddings Manipulation)を提案する。
論文 参考訳(メタデータ) (2025-04-26T08:46:10Z) - PIP: Perturbation-based Iterative Pruning for Large Language Models [5.511065308044068]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。
実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文 参考訳(メタデータ) (2025-01-25T17:10:50Z) - RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates [11.125682386965757]
RoCoFTは大規模言語モデルのためのパラメータ効率の良い微調整法である。
提案手法は,最先端PEFT法と同等あるいは良好な精度を示すことを示す。
論文 参考訳(メタデータ) (2024-10-14T01:36:24Z) - Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models [58.6172667880028]
長文モデルの暗記能力を測定するために,左折曲線と呼ばれる新しい手法を提案する。
テストコーパスと実験環境に頑健であることの利点を, 忘れる曲線は有益であることを示す。
本測定は,RNN/SSMモデルの有効性を疑問視しながら,トランスフォーマー拡張手法の有効性を示す実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-07T03:38:27Z) - Extending Context Window of Large Language Models from a Distributional Perspective [29.313701168816507]
本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。
本稿では,回転角分布の乱れを最小限に抑える新しい拡張戦略を提案する。
提案手法は,既存の最先端手法よりも平均4.33%向上する。
論文 参考訳(メタデータ) (2024-10-02T12:40:11Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - 2D Matryoshka Sentence Embeddings [11.682642816354418]
textitTwo-dimensional Matryoshka Sentence Embedding (2DMSE)footnote。
埋め込みサイズとトランスフォーマー層の両方の弾性設定をサポートし、MRLよりも柔軟性と効率性が高い。
実験により, 異なる埋め込みサイズとトランスフォーマー層を動的に支持する上で, 提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-02-22T18:35:05Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-08T07:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。