論文の概要: PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations
- arxiv url: http://arxiv.org/abs/2601.04674v1
- Date: Thu, 08 Jan 2026 07:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.081183
- Title: PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations
- Title(参考訳): PROMISE: ジェネレーティブレコメンデーションにおけるテストタイムスケーリング法則を解き放つプロセスリワードモデル
- Authors: Chengcheng Guo, Kuo Cai, Yu Zhou, Qiang Luo, Ruiming Tang, Han Li, Kun Gai, Guorui Zhou,
- Abstract要約: 生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
- 参考スコア(独自算出の注目度): 52.67948063133533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Recommendation has emerged as a promising paradigm, reformulating recommendation as a sequence-to-sequence generation task over hierarchical Semantic IDs. However, existing methods suffer from a critical issue we term Semantic Drift, where errors in early, high-level tokens irreversibly divert the generation trajectory into irrelevant semantic subspaces. Inspired by Process Reward Models (PRMs) that enhance reasoning in Large Language Models, we propose Promise, a novel framework that integrates dense, step-by-step verification into generative models. Promise features a lightweight PRM to assess the quality of intermediate inference steps, coupled with a PRM-guided Beam Search strategy that leverages dense feedback to dynamically prune erroneous branches. Crucially, our approach unlocks Test-Time Scaling Laws for recommender systems: by increasing inference compute, smaller models can match or surpass larger models. Extensive offline experiments and online A/B tests on a large-scale platform demonstrate that Promise effectively mitigates Semantic Drift, significantly improving recommendation accuracy while enabling efficient deployment.
- Abstract(参考訳): 生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
しかし、既存の手法はセマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされる。
大規模言語モデルにおける推論を強化するプロセス・リワード・モデル(PRM)にインスパイアされたPromiseは、密集したステップ・バイ・ステップの検証を生成モデルに統合する新しいフレームワークである。
Promiseは、中間推論ステップの品質を評価するための軽量なPRMと、高密度フィードバックを利用して動的に誤った分岐を行うPRM誘導ビームサーチ戦略を備えている。
重要なことに、我々のアプローチでは、推奨システムに対してテスト時間スケーリング法則をアンロックしています。
大規模なプラットフォーム上での大規模なオフライン実験とオンラインA/Bテストは、PromiseがSemantic Driftを効果的に緩和し、効率的なデプロイを可能にしながら、推奨精度を大幅に向上することを示している。
関連論文リスト
- Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Efficient Adaptive Rejection Sampling for Accelerating Speculative Decoding in Large Language Models [2.4065240342323384]
本稿では, 適応型リジェクションサンプリング(EARS)について紹介する。
EARSは、ターゲットモデルの予測不確かさを1-max(P_target)として組み込むことで、受入閾値を動的に調整する。
投機的復号化の効率を大幅に向上させ、18.12%のスループット向上を実現し、GSM8Kベンチマークでは0.84%の精度低下を無視できる。
論文 参考訳(メタデータ) (2025-12-15T11:08:56Z) - Next Interest Flow: A Generative Pre-training Paradigm for Recommender Systems by Modeling All-domain Movelines [8.895768051554162]
本稿では,eコマースレコメンデータシステムのための新しい生成事前学習パラダイムを提案する。
我々のモデルは,ユーザの将来の意図を表す密度の高いベクトル列であるNext Interest Flowを予測することを学ぶ。
パイプライン全体を実装した統合フレームワークである All-domain Moveline Evolution Network (AMEN) を提示する。
論文 参考訳(メタデータ) (2025-10-13T12:13:17Z) - REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems [25.59169452367297]
シーケンシャルレコメンデーションは,大規模レコメンデーションシステムにおけるユーザの次の行動を予測することを目的としている。
近年の研究では、ジェネレーティブレコメンデーションに推論プロセスを導入し、レコメンデーションパフォーマンスを大幅に改善している。
これらのアプローチは項目意味表現の特異性によって制約される。
本稿では,複数の動的意味論的推論経路を構成する推論強化生成モデルREG4Recを紹介する。
論文 参考訳(メタデータ) (2025-08-21T07:02:51Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。