論文の概要: Rethinking RoPE Scaling in Quantized LLM: Theory, Outlier, and Channel-Band Analysis with Weight Rescaling
- arxiv url: http://arxiv.org/abs/2510.00028v1
- Date: Fri, 26 Sep 2025 01:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.108052
- Title: Rethinking RoPE Scaling in Quantized LLM: Theory, Outlier, and Channel-Band Analysis with Weight Rescaling
- Title(参考訳): 量子化LDMにおけるRoPEスケーリングの再考:重み付き再スケーリングによる理論・外周・チャネルバンド解析
- Authors: Ye Qiao, Haocheng Xu, Xiaofan Zhang, Sitao Huang,
- Abstract要約: 本研究では, 軸整合量子化器と回転する RoPE 対による長いコンテキストエイリアス化, ダイナミックレンジ拡張, 異方性などの効果により, RoPE 位置認識 (PI) と PTQ を併用すると精度が低下することを示す。
本稿では,Q-ROAR (Quantization, RoPE-interpolation, Outlier Aware Rescaling) を提案する。
- 参考スコア(独自算出の注目度): 3.7391437252721698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending the context window support of large language models (LLMs) is crucial for tasks with long-distance dependencies. RoPE-based interpolation and extrapolation methods, such as linear scaling and frequency-aware schemes, enable longer input length support without retraining, while post-training quantization (PTQ) makes deployment practical. However, we show that combining RoPE position interpolation (PI) with PTQ degrades accuracy due to coupled effects including long-context aliasing, dynamic-range dilation, anisotropy from axis-aligned quantizers vs. rotated RoPE pairs, and outlier shifting that produces position-dependent logit noise. We provide, to the best of our knowledge, the first systematic analysis of the PI+PTQ approach and introduce two practical diagnostics: interpolation pressure (per-band sensitivity to phase scaling) and tail-inflation ratios (outlier shift from short to long contexts). Following the analysis results, we propose Q-ROAR (Quantization, RoPE-interpolation, and Outlier Aware Rescaling), a weight-only, interpolation-aware stabilization of PI for quantized LLMs. Q-ROAR groups RoPE dimensions into a small number of frequency bands and performs a lightweight search over per-band scales for Key and Query weights (with an optional symmetric variant to preserve logit scale). The search is guided by our diagnostics and uses a tiny long-context development dataset, requiring no fine-tuning to the model, no architecture or kernel changes, and no additional deployment overhead. Empirically, Q-ROAR reduces the model's perplexity on long-context workloads by more than 14%, while preserving short-context performance, inference throughput, and compatibility with existing LLM system stacks.
- Abstract(参考訳): 大きな言語モデル(LLM)のコンテキストウィンドウサポートを拡張することは、長距離依存性を持つタスクには不可欠である。
線形スケーリングや周波数アウェアスキームのようなRoPEベースの補間および補間手法は、再トレーニングをせずにより長い入力長をサポートする一方、PTQ(Post-training Quantization)は、デプロイを実用的なものにしている。
しかし,ロピー位置補間(PI)とPTQを組み合わせることで,長コンテキストエイリアス,ダイナミックレンジ拡張,軸方向量子化器からの異方性,回転するロピー対,位置依存ロジットノイズを発生させる外周シフトなどの結合効果により,精度が低下することを示す。
我々の知る限り、PI+PTQアプローチを最初に体系的に分析し、補間圧力(位相スケーリングに対するバンドごとの感度)とテール・インフレーション比(短所から長所への移行)の2つの実用的な診断手法を導入する。
解析結果に続いて、量化LDMのためのPIの重みのみを意識したQ-ROAR(Quantization, RoPE-interpolation, Outlier Aware Rescaling)を提案する。
Q-ROAR 群 RoPE は、少数の周波数帯域に次元を分け、キーとクエリの重みをバンド単位のスケールで軽量に探索する(ロジットスケールを保存するためのオプションの対称変量を持つ)。
検索は診断によってガイドされ、小さな長期コンテキスト開発データセットを使用し、モデルに微調整をする必要がなく、アーキテクチャやカーネルの変更がなく、追加のデプロイメントオーバーヘッドも必要ありません。
経験的に、Q-ROARは、短いコンテキスト性能、推論スループット、既存のLLMシステムスタックとの互換性を保ちながら、長いコンテキストワークロードにおけるモデルの難易度を14%以上削減する。
関連論文リスト
- Q-ROAR: Outlier-Aware Rescaling for RoPE Position Interpolation in Quantized Long-Context LLMs [0.9510848451801044]
PIとPTQを組み合わせることで、長いコンテキストエイリアス化、ダイナミックレンジ拡張、軸格子異方性、位置依存ロジットノイズを誘導するシフトによる精度が低下することを示す。
本稿では,RoPE 次元を数個の周波数帯域にグループ化し,W_Q,W_K の帯域単位のスケールを最小に探索し,ロジットスケールを保存するための対称変種を任意に生成する,RoPE 対応の重み付き安定化 Q-ROAR を提案する。
論文 参考訳(メタデータ) (2025-09-17T19:50:16Z) - HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models [19.3827288035483]
双曲型回転位置決め法を提案する。
トークン表現にローレンツ回転を実装するために双曲関数を利用する(HoPE)。
テストは、HoPEが既存の位置符号化手法を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-05T16:20:48Z) - Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings [29.421443764865003]
本稿では,RoPEの回転位置埋め込みにおいて,何とどこで絡み合っているのかを解析する。
本稿では,Polar Coordinate Position Embeddings(PoPE)と呼ばれるRoPEの改良を提案する。
論文 参考訳(メタデータ) (2025-09-05T14:22:27Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文 参考訳(メタデータ) (2025-08-04T11:22:13Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。