論文の概要: NEZHA: A Zero-sacrifice and Hyperspeed Decoding Architecture for Generative Recommendations
- arxiv url: http://arxiv.org/abs/2511.18793v1
- Date: Mon, 24 Nov 2025 05:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.043762
- Title: NEZHA: A Zero-sacrifice and Hyperspeed Decoding Architecture for Generative Recommendations
- Title(参考訳): NEZHA: ジェネレーティブレコメンデーションのためのゼロサクリフと超高速デコードアーキテクチャ
- Authors: Yejing Wang, Shengyu Zhou, Jinyu Lu, Ziwei Liu, Langming Liu, Maolin Wang, Wenlin Zhang, Feng Li, Wenbo Su, Pengjie Wang, Jian Xu, Xiangyu Zhao,
- Abstract要約: NEZHAは、推薦品質を犠牲にすることなく、生成レコメンデーション(GR)システムの高速デコーディングを実現する新しいアーキテクチャである。
NEZHAの有効性を公開データセットの広範な実験を通じて実証し,2025年10月以降,そのシステムをTaobao上に展開することに成功している。
- 参考スコア(独自算出の注目度): 44.6848620438905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Recommendation (GR), powered by Large Language Models (LLMs), represents a promising new paradigm for industrial recommender systems. However, their practical application is severely hindered by high inference latency, which makes them infeasible for high-throughput, real-time services and limits their overall business impact. While Speculative Decoding (SD) has been proposed to accelerate the autoregressive generation process, existing implementations introduce new bottlenecks: they typically require separate draft models and model-based verifiers, requiring additional training and increasing the latency overhead. In this paper, we address these challenges with NEZHA, a novel architecture that achieves hyperspeed decoding for GR systems without sacrificing recommendation quality. Specifically, NEZHA integrates a nimble autoregressive draft head directly into the primary model, enabling efficient self-drafting. This design, combined with a specialized input prompt structure, preserves the integrity of sequence-to-sequence generation. Furthermore, to tackle the critical problem of hallucination, a major source of performance degradation, we introduce an efficient, model-free verifier based on a hash set. We demonstrate the effectiveness of NEZHA through extensive experiments on public datasets and have successfully deployed the system on Taobao since October 2025, driving the billion-level advertising revenue and serving hundreds of millions of daily active users.
- Abstract(参考訳): LLM(Large Language Models)を利用したジェネレーティブレコメンデーション(GR)は,産業用レコメンデーションシステムにおいて,将来性のある新たなパラダイムである。
しかし、彼らの実践的応用は高い推論遅延によって著しく妨げられ、高スループットでリアルタイムなサービスでは利用できなくなり、全体的なビジネスへの影響が制限されます。
投機的デコーディング(SD)は自動回帰生成プロセスを加速するために提案されているが、既存の実装では新たなボトルネックが導入されている。
本稿では,これらの課題を,推薦品質を犠牲にすることなく,GRシステムの高速デコーディングを実現する新しいアーキテクチャNEZHAを用いて解決する。
具体的には、NEZHAはニブル自己回帰型ドラフトヘッドを直接一次モデルに統合し、効率的な自己描画を可能にする。
この設計は、特別な入力プロンプト構造と組み合わせて、シーケンス・ツー・シーケンス生成の整合性を維持する。
さらに,性能劣化の主な原因である幻覚の重大な問題に対処するために,ハッシュ集合に基づく効率的なモデルフリー検証手法を導入する。
2025年10月からは,公開データセットの広範な実験を通じてNEZHAの有効性を実証し,数十億ドル規模の広告収入を駆り立て,毎日数億人のアクティブユーザを対象に,そのシステムをTaobaoに展開することに成功している。
関連論文リスト
- Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - VeriReason: Reinforcement Learning with Testbench Feedback for Reasoning-Enhanced Verilog Generation [9.07044866283158]
本稿では,教師付き微調整とガイド・リワード近似最適化(GRPO)によるRTL生成のための強化学習を統合するフレームワークであるVeriReasonを紹介する。
VerilogEvalベンチマークでは、VeriReasonは83.1%の機能的正当性を提供しており、比較可能なサイズのモデルと、GPT-4 Turboのようなはるかに大きな商用システムの両方を上回っている。
VeriReasonは、Verilog生成のための強化学習と明示的な推論機能をうまく統合する最初のシステムであり、自動RTL合成のための新しい最先端技術を確立している。
論文 参考訳(メタデータ) (2025-05-17T05:25:01Z) - AKD : Adversarial Knowledge Distillation For Large Language Models Alignment on Coding tasks [4.757470449749877]
本稿では, 大規模モデルの能力を, より小さく, より効率的なものに蒸留するために, AKD (Adversarial Knowledge Distillation) を導入する。
AKDはモデルの堅牢性、信頼性、セキュリティを向上し、パラメータ効率を向上させるためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-05T22:41:19Z) - Preventing Non-intrusive Load Monitoring Privacy Invasion: A Precise Adversarial Attack Scheme for Networked Smart Meters [99.90150979732641]
本稿では,敵攻撃に基づく革新的な手法を提案する。
このスキームは、NILMモデルがアプライアンスレベルのプライバシに違反するのを効果的に防ぎ、ユーザの正確な請求計算を確実にする。
提案手法はトランスファービリティを示し,他の様々なNILMモデルに適用可能な1つのターゲットモデルから発生する摂動信号を生成する。
論文 参考訳(メタデータ) (2024-12-22T07:06:46Z) - HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection [66.42229859018775]
我々は,HUWSOD(HuWSOD)と呼ばれる,統一・高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。
HUWSODには、自己管理された提案生成器と、従来のオブジェクト提案を置き換えるために、マルチレートで再構成されたピラミッドを備えたオートエンコーダ提案生成器が組み込まれている。
提案手法は,よく設計されたオフラインオブジェクト提案と大きく異なるが,WSOD訓練には有効であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Integrated Modeling, Verification, and Code Generation for Unmanned Aerial Systems [10.292890852621346]
無人航空システム(UAS)は、産業生産、軍事作戦、災害救助などの安全上重要な分野で広く利用されている。
本稿では,UASのモデリング,検証,コード生成に対する統合的なアプローチを検討することを目的とする。
論文 参考訳(メタデータ) (2024-06-13T14:53:40Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。