論文の概要: Quantized Inference for OneRec-V2
- arxiv url: http://arxiv.org/abs/2603.11486v1
- Date: Thu, 12 Mar 2026 03:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.839733
- Title: Quantized Inference for OneRec-V2
- Title(参考訳): OneRec-V2の量子推論
- Authors: Yi Su, Xinchen Luo, Hongtao Cheng, Ziteng Shu, Yunfeng Zhao, Fangyu Zhang, Jiaqiang Liu, Xiao Liang, Yiwu Liu, Ruiming Tang,
- Abstract要約: 我々は、FP8ポストトレーニング量子化フレームワークを開発し、最適化された推論基盤に統合する。
提案した共同最適化は、エンドツーエンドの推論遅延を49%削減し、スループットを92%向上させる。
これらの結果から,大規模言語モデルのパラダイムに向けてレコメンダシステムが進化するにつれて,大規模レコメンデーションワークロードにアルゴリズムレベルおよびシステムレベルの最適化技術が効果的に適応できることが示唆された。
- 参考スコア(独自算出の注目度): 28.8042155916846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantized inference has demonstrated substantial system-level benefits in large language models while preserving model quality. In contrast, reliably applying low-precision quantization to recommender systems remains challenging in industrial settings. This difficulty arises from differences in training paradigms, architectural patterns, and computational characteristics, which lead to distinct numerical behaviors in weights and activations. Traditional recommender models often exhibit high-magnitude and high-variance weights and activations, making them more sensitive to quantization-induced perturbations. In addition, recommendation workloads frequently suffer from limited hardware utilization, limiting the practical gains of low-precision computation. In this work, we revisit low-precision inference in the context of generative recommendation. Through empirical distribution analysis, we show that the weight and activation statistics of OneRec-V2 are significantly more controlled and closer to those of large language models than traditional recommendation models. Moreover, OneRec-V2 exhibits a more compute-intensive inference pattern with substantially higher hardware utilization, enabling more end-to-end throughput gains with low-precision computation. Leveraging this property, we develop a FP8 post training quantization framework and integrate it into an optimized inference infrastructure. The proposed joint optimization achieves a 49\% reduction in end-to-end inference latency and a 92\% increase in throughput. Extensive online A/B testing further confirms that FP8 inference introduces no degradation in core metrics. These results suggest that as recommender systems evolve toward the paradigms of large language models, algorithm-level and system-level optimization techniques established in the LLM domain can be effectively adapted to large-scale recommendation workloads.
- Abstract(参考訳): 量子推論は、モデルの品質を維持しながら、大きな言語モデルにおいてシステムレベルの大きな利点を示してきた。
対照的に、レコメンダシステムに低精度の量子化を確実に適用することは、産業環境では困難である。
この困難は、トレーニングパラダイム、アーキテクチャパターン、計算特性の違いから生じ、重みとアクティベーションの異なる数値的挙動をもたらす。
従来のレコメンデーターモデルは、高マグニチュードと高ばらつきの重みと活性化を示すことが多く、量子化によって引き起こされる摂動に敏感である。
加えて、リコメンデーションワークロードはハードウェア利用の制限に悩まされ、低精度計算の実用的利益が制限される。
本研究では,生成的推薦の文脈において,低精度推論を再考する。
実験的な分布解析により,OneRec-V2の重みとアクティベーション統計は従来のレコメンデーションモデルよりも大幅に制御され,大きな言語モデルに近いことがわかった。
さらに、OneRec-V2は、ハードウェア利用率が大幅に向上した計算集約型推論パターンを示し、低精度の計算でエンドツーエンドのスループット向上を可能にする。
この特性を活用して、FP8ポストトレーニング量子化フレームワークを開発し、最適化された推論基盤に統合する。
提案したジョイント最適化は、エンドツーエンドの推論遅延の 49 % 削減と、スループットの 92 % 向上を実現する。
大規模なオンラインA/Bテストでは、FP8推論がコアメトリクスの劣化を起こさないことも確認されている。
これらの結果から,LLM領域で確立されたアルゴリズムレベルおよびシステムレベルの最適化技術は,大規模レコメンデーションワークロードに効果的に適応できる可能性が示唆された。
関連論文リスト
- A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization [32.97211471008323]
我々は、勾配、重み、状態の浮動小数点量子化の下で、アダムやムオンを含む適応収束の最初の理論的枠組みを導入する。
両アルゴリズムが完全精度のアルゴリズムに近い収束率を維持していることを示す。
我々はさらに、Adamが$beta から 1$ への依存のため、高い感度と第二モーメントの量子化重みに敏感であることを明らかにし、Muon はより弱いエラー制御を必要とするため、より堅牢である可能性がある。
論文 参考訳(メタデータ) (2025-10-24T10:16:23Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Efficient Edge LLMs Deployment via HessianAware Quantization and CPU GPU Collaborative [31.74122603714625]
Mixture of Experts (MoE)アーキテクチャは、スパースアクティベーションによってモデルのキャパシティを向上させる。
MoEは実践的な展開において2つの大きな困難に直面している。
メモリ制限下では、専門家モジュールの効率的なオフロードと協調的な推論は、レイテンシとスループットのバランスをとるのに苦労する。
本稿では,Hessian-Aware Quantization (HAQ)とCPU-GPU協調推論に基づく効率的なMoEエッジ配置方式を提案する。
論文 参考訳(メタデータ) (2025-08-10T12:59:57Z) - QPART: Adaptive Model Quantization and Dynamic Workload Balancing for Accuracy-aware Edge Inference [10.55165549089585]
要求固有のモデルによる推論パターンをデバイスの計算能力に合わせて計画することは、多様なシナリオに対してよりコスト効率が高く、堅牢である、と我々は主張する。
本稿では,共同モデル量子化と推論分割を統合した,精度の高いワークロードバランス推論システムを提案する。
シミュレーションの結果、全体の時間と消費電力が大幅に減少し、ペイロードは80%以上減少し、精度は1%以下に抑えられた。
論文 参考訳(メタデータ) (2025-06-30T15:03:35Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
層間依存関係を考慮し、量子化重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - PLUM: Improving Inference Efficiency By Leveraging Repetition-Sparsity Trade-Off [2.326200609038491]
量子化とスパシティは、ハードウェア・ソフトウェア・インタフェースにおけるテンソル内の繰り返しとスパシティに変換する重要な技術である。
本稿では,反復スパーシティートレードオフの概念を導入し,推論時の計算効率を説明する。
本稿では、推論システムと量子化を統合し、繰り返しスパーシティトレードオフを利用する統一型協調設計フレームワークPLUMを提案する。
論文 参考訳(メタデータ) (2023-12-04T02:33:53Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。