論文の概要: Q-ROAR: Outlier-Aware Rescaling for RoPE Position Interpolation in Quantized Long-Context LLMs
- arxiv url: http://arxiv.org/abs/2509.14391v1
- Date: Wed, 17 Sep 2025 19:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.961771
- Title: Q-ROAR: Outlier-Aware Rescaling for RoPE Position Interpolation in Quantized Long-Context LLMs
- Title(参考訳): Q-ROAR: 量子化長周期LLMにおけるRoPE位置補間のための外部認識再スケーリング
- Authors: Ye Qiao, Sitao Huang,
- Abstract要約: PIとPTQを組み合わせることで、長いコンテキストエイリアス化、ダイナミックレンジ拡張、軸格子異方性、位置依存ロジットノイズを誘導するシフトによる精度が低下することを示す。
本稿では,RoPE 次元を数個の周波数帯域にグループ化し,W_Q,W_K の帯域単位のスケールを最小に探索し,ロジットスケールを保存するための対称変種を任意に生成する,RoPE 対応の重み付き安定化 Q-ROAR を提案する。
- 参考スコア(独自算出の注目度): 0.9510848451801044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending LLM context windows is crucial for long range tasks. RoPE-based position interpolation (PI) methods like linear and frequency-aware scaling extend input lengths without retraining, while post-training quantization (PTQ) enables practical deployment. We show that combining PI with PTQ degrades accuracy due to coupled effects long context aliasing, dynamic range dilation, axis grid anisotropy, and outlier shifting that induce position-dependent logit noise. We provide the first systematic analysis of PI plus PTQ and introduce two diagnostics: Interpolation Pressure (per-band phase scaling sensitivity) and Tail Inflation Ratios (outlier shift from short to long contexts). To address this, we propose Q-ROAR, a RoPE-aware, weight-only stabilization that groups RoPE dimensions into a few frequency bands and performs a small search over per-band scales for W_Q,W_K, with an optional symmetric variant to preserve logit scale. The diagnostics guided search uses a tiny long-context dev set and requires no fine-tuning, kernel, or architecture changes. Empirically, Q-ROAR recovers up to 0.7% accuracy on standard tasks and reduces GovReport perplexity by more than 10%, while preserving short-context performance and compatibility with existing inference stacks.
- Abstract(参考訳): LLMコンテキストウィンドウの拡張は、長距離タスクに不可欠である。
RoPEベースの位置補間(PI)手法では、線形および周波数対応のスケーリングは、再トレーニングなしで入力長を延長するが、ポストトレーニング量子化(PTQ)は実用的な展開を可能にする。
PIとPTQを組み合わせることで、長いコンテキストエイリアス、ダイナミックレンジ拡張、軸格子異方性、位置依存ロジットノイズを誘発する外周シフトによる精度が低下することを示す。
本稿では,PI+PTQを初めて体系的に解析し,補間圧力(バンド間位相スケーリング感度)とTail Inflation Ratios(短所から長所への移行)の2つの診断手法を提案する。
そこで本研究では,RoPE 次元を数個の周波数帯域に分類し,W_Q,W_K の帯域単位のスケールに対して,ロジットスケールを保存するためのオプション対称変種を用いて小さな探索を行う,RoPE 対応の重みのみの安定化である Q-ROAR を提案する。
診断ガイド付き検索は、小さな長いコンテキストの開発セットを使用し、微調整、カーネル、アーキテクチャの変更を必要としない。
実証的には、Q-ROARは標準タスクで最大0.7%の精度を回復し、GovReportのパープレキシティを10%以上削減し、短文のパフォーマンスと既存の推論スタックとの互換性を保っている。
関連論文リスト
- Positional Encoding via Token-Aware Phase Attention [62.1265709014944]
本研究は,Rotary Positional Embedding (RoPE) が注意点の内在的距離依存バイアスを導入し,RoPEが長期コンテキストをモデル化する能力を制限していることを示す。
本稿では,学習可能な位相関数をアテンション機構に組み込んだ新しい位置符号化手法であるToken-Aware Phase Attention (TAPA)を紹介する。
論文 参考訳(メタデータ) (2025-09-16T03:53:32Z) - HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models [19.3827288035483]
双曲型回転位置決め法を提案する。
トークン表現にローレンツ回転を実装するために双曲関数を利用する(HoPE)。
テストは、HoPEが既存の位置符号化手法を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-05T16:20:48Z) - LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文 参考訳(メタデータ) (2025-08-04T11:22:13Z) - HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - Deep Reinforcement Learning for IRS Phase Shift Design in
Spatiotemporally Correlated Environments [93.30657979626858]
本稿では,チャネル相関と目的地動きを考慮したディープアクター批判アルゴリズムを提案する。
チャネルが時間的に相関している場合、コンバージェンスを抑制する方法において、関数近似を伴う状態表現にSNRを組み込むことが示される。
論文 参考訳(メタデータ) (2022-11-02T22:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。