論文の概要: PSC: Extending Context Window of Large Language Models via Phase Shift Calibration
- arxiv url: http://arxiv.org/abs/2505.12423v1
- Date: Sun, 18 May 2025 13:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.225314
- Title: PSC: Extending Context Window of Large Language Models via Phase Shift Calibration
- Title(参考訳): PSC: 位相シフト校正による大規模言語モデルのコンテキストウィンドウの拡張
- Authors: Wenqiao Zhu, Chao Xu, Lulu Wang, Jun Wu,
- Abstract要約: 近年,RoPEに基づくコンテキストウィンドウをさらに拡張する手法が数多く提案されている。
PSC(Phase Shift)は、既存の手法で事前に定義された周波数を調整するための小さなモジュールである。
複数のモデルやタスクにまたがる広範な実験を行った。
- 参考スコア(独自算出の注目度): 10.30428210419642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rotary Position Embedding (RoPE) is an efficient position encoding approach and is widely utilized in numerous large language models (LLMs). Recently, a lot of methods have been put forward to further expand the context window based on RoPE. The core concept of those methods is to predefine or search for a set of factors to rescale the base frequencies of RoPE. Nevertheless, it is quite a challenge for existing methods to predefine an optimal factor due to the exponential search space. In view of this, we introduce PSC (Phase Shift Calibration), a small module for calibrating the frequencies predefined by existing methods. With the employment of PSC, we demonstrate that many existing methods can be further enhanced, like PI, YaRN, and LongRoPE. We conducted extensive experiments across multiple models and tasks. The results demonstrate that (1) when PSC is enabled, the comparative reductions in perplexity increase as the context window size is varied from 16k, to 32k, and up to 64k. (2) Our approach is broadly applicable and exhibits robustness across a variety of models and tasks. The code can be found at https://github.com/WNQzhu/PSC.
- Abstract(参考訳): ロータリー位置埋め込み(RoPE)は効率的な位置符号化手法であり、多数の大規模言語モデル(LLM)で広く利用されている。
近年,RoPEに基づくコンテキストウィンドウをさらに拡張する手法が数多く提案されている。
これらの手法の中核となる概念は、RoPEの基本周波数を再スケールするための要素のセットを事前に定義または探索することである。
それでも、指数探索空間による最適因子の事前定義は、既存の手法にとって非常に困難である。
そこで我々は,既存の手法で事前に定義された周波数を校正する小型モジュールであるPSC(Phase Shift Calibration)を導入する。
PSCの活用により,PI,YarRN,LongRoPEなどの既存手法をさらに強化できることが実証された。
複数のモデルやタスクにまたがる広範な実験を行った。
その結果,(1)PSCを有効にすると,コンテクストウィンドウサイズが16kから32k,最大64kに変化するにつれて,パープレキシティの低下が増加することがわかった。
2)我々のアプローチは広く適用可能であり,様々なモデルやタスクにまたがる堅牢性を示す。
コードはhttps://github.com/WNQzhu/PSCで見ることができる。
関連論文リスト
- ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs [18.897130541385646]
RoPE(Rotary Positional Embedding)は、大規模言語モデル(LLM)におけるコンテキストスケーリングの鍵となるコンポーネントである。
本研究は,RoPEの低周波成分をソフトに切断する最小限の介入により,これらの特徴を統一するものである。
CoPEはOOD出力を除去し、セマンティックシグナルを洗練するだけでなく、ハードクリッピングによるスペクトルリークを防ぐ。
論文 参考訳(メタデータ) (2026-02-05T03:31:14Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文 参考訳(メタデータ) (2025-08-04T11:22:13Z) - Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation [60.22622442950905]
大型言語モデル(LLM)は、入力トークンの数がトレーニング済みの長さを超えると、コヒーレントなコンテキストを処理し、生成するのに苦労することが多い。
長文拡張の最近の進歩は、LLMのコンテキストウィンドウを大きく拡張した。
LLMのコンテキストウィンドウを外挿するためのDPE(Dmension-Wise Positional Embeddings Manipulation)を提案する。
論文 参考訳(メタデータ) (2025-04-26T08:46:10Z) - PIP: Perturbation-based Iterative Pruning for Large Language Models [5.511065308044068]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。
実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文 参考訳(メタデータ) (2025-01-25T17:10:50Z) - RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates [11.125682386965757]
RoCoFTは大規模言語モデルのためのパラメータ効率の良い微調整法である。
提案手法は,最先端PEFT法と同等あるいは良好な精度を示すことを示す。
論文 参考訳(メタデータ) (2024-10-14T01:36:24Z) - Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models [58.6172667880028]
長文モデルの暗記能力を測定するために,左折曲線と呼ばれる新しい手法を提案する。
テストコーパスと実験環境に頑健であることの利点を, 忘れる曲線は有益であることを示す。
本測定は,RNN/SSMモデルの有効性を疑問視しながら,トランスフォーマー拡張手法の有効性を示す実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-07T03:38:27Z) - Extending Context Window of Large Language Models from a Distributional Perspective [29.313701168816507]
本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。
本稿では,回転角分布の乱れを最小限に抑える新しい拡張戦略を提案する。
提案手法は,既存の最先端手法よりも平均4.33%向上する。
論文 参考訳(メタデータ) (2024-10-02T12:40:11Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - 2D Matryoshka Sentence Embeddings [11.682642816354418]
textitTwo-dimensional Matryoshka Sentence Embedding (2DMSE)footnote。
埋め込みサイズとトランスフォーマー層の両方の弾性設定をサポートし、MRLよりも柔軟性と効率性が高い。
実験により, 異なる埋め込みサイズとトランスフォーマー層を動的に支持する上で, 提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-02-22T18:35:05Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - Continuous Input Embedding Size Search For Recommender Systems [60.89189829112067]
連続入力埋め込みサイズ探索(CIESS)は、任意の埋め込みサイズを選択可能な連続探索空間上で動作する新しいRLベースの手法である。
CIESSはモデルに依存しないため、様々な潜在因子RSに一般化できる。
2つの実世界のデータセットに関する実験では、異なるメモリ予算の下でCIESSの最先端のパフォーマンスが示されている。
論文 参考訳(メタデータ) (2023-04-07T06:46:37Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-08T07:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。