論文の概要: DeGRe: Dense-supervised Generative Reranking for Recommendation
- arxiv url: http://arxiv.org/abs/2605.25749v1
- Date: Mon, 25 May 2026 12:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.932889
- Title: DeGRe: Dense-supervised Generative Reranking for Recommendation
- Title(参考訳): DeGRe: 勧告のためのDense-supervised Generative Re rank
- Authors: Chaotian Song, Jingyao Zhang, Chenghao Chen, Zisen Sang, Dehai Zhao, Guodong Cao, Boxi Wu, Deng Cai, Jia Jia,
- Abstract要約: オフラインの探索とオンラインの効率のギャップを、密集した監督によって埋める、ジェネレーティブ・リグレード・フレームワークであるDeGReを提案する。
トレーニング中、評価器から高密度の監視信号に変換し、それらを軽量オンラインジェネレータに蒸留する。
私たちは、Taobao Flash ShoppingにDeGReをうまくデプロイし、オンラインレコメンデーションを大幅に改善しました。
- 参考スコア(独自算出の注目度): 22.41679588580571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-stage recommender systems, reranking optimizes overall utility by capturing intra-list contextual dependencies, yet its central challenge lies in exploring optimal sequences within an exponentially large permutation space. Recent studies have shifted towards end-to-end generative frameworks, which typically leverage list-wise rewards or preference alignment to guide generator training. However, these methods still face two critical issues. First is the heuristic label bias. Existing methods often construct training targets based on simple rules, such as promoting clicked items to the top, while ignoring causal dependencies within the list context. Second is the credit assignment problem. Sparse list-level posterior rewards fail to directly guide intermediate steps in sequence generation, leading to ambiguous optimization directions. To address these issues, we propose DeGRe (Dense-supervised Generative Reranking), a generative reranking framework that bridges the gap between offline exploration and online efficiency through dense supervision. The core of DeGRe lies in its offline-online decoupled design. During the offline phase, we introduce a Lookahead Evaluator based on cumulative regression, which leverages beam search to actively mine high-value lookahead sequences in the unexposed space. During training, we transform the step-wise value estimations from the evaluator into dense supervision signals and distill them into a lightweight Online Generator. This mechanism enables the generator to internalize lookahead planning capabilities, requiring only a single efficient greedy decoding pass during online inference to approximate the global optimum. Experiments demonstrate that DeGRe outperforms baseline models on public benchmarks and industrial datasets. We have successfully deployed DeGRe on Taobao Flash Shopping, significantly improving online recommendations.
- Abstract(参考訳): マルチステージレコメンデータシステムでは、リスト内のコンテキスト依存をキャプチャすることで全体的なユーティリティを最適化するが、その中心となる課題は指数関数的に大きな置換空間内で最適なシーケンスを探索することである。
最近の研究は、通常、リストワイド報酬やリコメンデーションアライメントを活用してジェネレータのトレーニングをガイドするエンドツーエンドの生成フレームワークに移行している。
しかし、これらの方法は依然として2つの重大な問題に直面している。
ひとつはヒューリスティックなラベルバイアスです。
既存のメソッドはしばしば、クリックしたアイテムをトップに昇格させるといった単純なルールに基づいてトレーニングターゲットを構築し、リストコンテキスト内の因果依存性を無視している。
第二に、クレジットの割り当ての問題です。
スパースリストレベルの後続報酬は、シーケンス生成の中間ステップを直接導くことができず、あいまいな最適化の方向につながる。
これらの課題に対処するため,我々は,オフライン探索とオンライン効率のギャップを高密度監督を通して埋める生成的更新フレームワークであるDeGRe(Dense-supervised Generative Re rank)を提案する。
DeGReの中核はオフラインのデカップリングデザインにある。
オフラインの段階では、累積回帰に基づくLookahead評価器を導入し、ビーム探索を利用して未公開空間の高値なLookahead配列を積極的にマイニングする。
トレーニング中、評価器から高密度の監視信号に変換し、それらを軽量オンラインジェネレータに蒸留する。
このメカニズムにより、ジェネレータはルックアヘッド計画能力を内部化することができ、グローバルな最適化を近似するために、オンライン推論中に1つの効率的なグリーディ復号パスしか必要としない。
実験によると、DeGReは公開ベンチマークや産業データセットのベースラインモデルを上回っている。
私たちは、Taobao Flash ShoppingにDeGReをうまくデプロイし、オンラインレコメンデーションを大幅に改善しました。
関連論文リスト
- From Local Indices to Global Identifiers: Generative Reranking for Recommender Systems via Global Action Space [50.72071213515985]
GloRankは、ローカルインデックスの選択からグローバル識別子の生成に移行する、ジェネレーティブなフレームワークである。
我々はGloRankが最先端のベースラインを一貫して上回り、コールドスタートシナリオにおいて優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2026-04-28T06:57:00Z) - RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning [79.88942231770629]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を向上させるための訓練後の中心的なツールとなっている。
統一表記によるロールアウトパイプラインの形式化とGenerate-Filter-Control-Replay(GFCR)の導入
検証可能な報酬、プロセスの監督、判断に基づくゲーティング、ガイドとツリー/セグメントのロールアウト、アダプティブな計算割り当て、早期終了と部分的なロールアウト、スループット最適化、自己改善のための再生/再配置でRLにまたがる手法を合成する。
論文 参考訳(メタデータ) (2026-04-08T00:53:29Z) - Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan [19.27715432069165]
本稿では,ユーザからの推薦リストを,粗い方法で徐々に拡張する次世代ジェネレータ(NSG)を提案する。
NSGRはMeituanフードデリバリープラットフォーム上での展開に成功している。
論文 参考訳(メタデータ) (2026-04-07T01:35:20Z) - RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation [36.297513746770456]
提案するRangGRは、リストワイズ直接選好最適化をレコメンデーションに組み込んだジェネレーティブ検索手法である。
IAPでは、新しいリストワイズ直接選好最適化戦略をGRに組み込んで、階層的ユーザの選好をより包括的に理解する。
トレーニングとデプロイメントにおいていくつかの実践的な改善を実現し、最終的には毎秒1万近いリクエストを処理可能なリアルタイムシステムを実現しています。
論文 参考訳(メタデータ) (2026-02-09T12:13:43Z) - SimGR: Escaping the Pitfalls of Generative Decoding in LLM-based Recommendation [68.00727783181289]
推薦システムの中核的な目的は、パーソナライズされたレコメンデーションを可能にするために、アイテムよりもユーザの好みの分布を正確にモデル化することである。
アイテムレベルの嗜好分布を推定する際に,既存の手法が必然的に系統的バイアスを生じさせることを観察する。
textbfSimply textbfGenerative textbfRecommendation (textbfSimGR)を提案する。
論文 参考訳(メタデータ) (2026-02-08T07:26:52Z) - GReF: A Unified Generative Framework for Efficient Reranking via Ordered Multi-token Prediction [12.254397628788647]
ランク付けは、項目間のリスト内相関をモデル化する上で重要な役割を果たす。
最近の研究は2段階(ジェネレータ・評価器)パラダイムを踏襲している。
本稿では,2つの主要な課題に対処するため,GReF(Unified Generative Efficient Re rank Framework)を提案する。
論文 参考訳(メタデータ) (2025-10-29T06:54:42Z) - NLGR: Utilizing Neighbor Lists for Generative Rerank in Personalized Recommendation Systems [13.848284819312953]
ジェネレーティブリジェネレータの近隣リストモデルは、空間におけるジェネレータのパフォーマンスを改善することを目的としている。
本稿では,既存のリストから任意の隣接リストへ柔軟にジャンプ可能な,サンプリングに基づく非自己回帰生成手法を提案する。
NLGRの有効性を実証し,NLGRをMeituanフードデリバリープラットフォームに導入することに成功している。
論文 参考訳(メタデータ) (2025-02-10T02:06:17Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。