論文の概要: Learning to Reflect and Correct: Towards Better Decoding Trajectories for Large-Scale Generative Recommendation
- arxiv url: http://arxiv.org/abs/2602.23639v1
- Date: Fri, 27 Feb 2026 03:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.227337
- Title: Learning to Reflect and Correct: Towards Better Decoding Trajectories for Large-Scale Generative Recommendation
- Title(参考訳): 振り返りと修正の学習:大規模生成レコメンデーションのためのより良いデコード軌道を目指して
- Authors: Haibo Xing, Hao Deng, Lingyu Mu, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, Jing Zhang,
- Abstract要約: Generative Recommendation (GR) は大規模レコメンデーションシステムにおいて有望なパラダイムとなっている。
本稿では,GRC(Generation-Reflection-Correction)プロセスに標準デコードを拡張するGRのための構造化反射補正フレームワークを提案する。
本稿では,効率的なオンラインサービスを実現するために,高不確実性復号化により多くの補正予算を動的に割り当てる Entropy-Guided Reflection Scheduling (EGRS) 戦略を提案する。
- 参考スコア(独自算出の注目度): 14.679550929790151
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative Recommendation (GR) has become a promising paradigm for large-scale recommendation systems. However, existing GR models typically perform single-pass decoding without explicit refinement, causing early deviations to accumulate and ultimately degrade recommendation quality. To tackle this problem, we propose GRC, which is, to our knowledge, the first structured reflection-correction framework for GR that extends standard decoding into a Generation-Reflection-Correction (GRC) process. Concretely, GRC introduces a supervised reflection-correction template that decomposes the decoding process into initial draft generation, multi-granular reflection, and reflection-guided correction, thereby enabling structured reflection and correction in the semantic token space. To further explore the enlarged refinement space introduced by the GRC process, we optimize the entire GRC trajectory with GRPO-based reinforcement learning, under a carefully designed reward function with token-level and trajectory-level signals. For efficient online serving, we propose an Entropy-Guided Reflection Scheduling (EGRS) strategy that dynamically allocates more correction budget to high-uncertainty decoding trajectories during beam search. Extensive experiments on real-world datasets show that GRC consistently outperforms six state-of-the-art baselines by up to 15.74%, and online A/B tests demonstrate its substantial practical value in large-scale industrial recommendation, delivering a 1.79% lift in advertising revenue with only modest latency overhead.
- Abstract(参考訳): Generative Recommendation (GR) は大規模レコメンデーションシステムにおいて有望なパラダイムとなっている。
しかし、既存のGRモデルは通常、明示的な洗練なしにシングルパスデコードを実行するため、初期偏差が蓄積され、最終的に推奨品質が低下する。
この問題に対処するため、我々はGRのための最初の構造化反射補正フレームワークであるGRCを提案し、標準復号化をGRC(Generation-Reflection-Correction)プロセスに拡張した。
具体的には、GRCは、デコードプロセスを初期ドラフト生成、多粒反射、反射誘導補正に分解する教師付きリフレクション補正テンプレートを導入し、セマンティックトークン空間における構造的リフレクションと修正を可能にする。
GRCプロセスによって導入された拡張された改善空間をさらに探求するため、トークンレベルおよびトラジェクトリレベルの信号で慎重に設計された報酬関数の下で、GRPOに基づく強化学習により全GRC軌道を最適化する。
効率的なオンラインサービスを実現するために,ビームサーチ中に高不確実な復号軌道により多くの補正予算を動的に割り当てるEntropy-Guided Reflection Scheduling (EGRS) 戦略を提案する。
実世界のデータセットに関する大規模な実験によると、GRCは6つの最先端ベースラインを最大15.74%上回り、オンラインA/Bテストは大規模産業レコメンデーションにおいてその実質的な価値を示し、広告収入の1.79%をわずかに遅延オーバヘッドで達成している。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Reinforced Preference Optimization for Recommendation [28.87206911186567]
本稿では,レコメンデーションのためのReinforced Preference Optimization for Recommendation (ReRe)を提案する。
ReReは制約ビーム探索を取り入れてサンプリング効率を改善し、ハードネガを多様化する。
ReRe は従来型と LLM ベースのレコメンデータのランク付け性能を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-14T07:04:33Z) - Graph-R1: Towards Agentic GraphRAG Framework via End-to-end Reinforcement Learning [20.05893083101089]
Graph-R1は、エンドツーエンド強化学習(RL)によるエージェントGraphRAGフレームワークである
軽量な知識ハイパーグラフ構築、マルチターンエージェント環境相互作用としてのモデル検索を導入している。
標準RAGデータセットの実験では、Graph-R1は、精度、検索効率、生成品質を推算する従来のGraphRAGおよびRL強化RAGメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-07-29T15:01:26Z) - RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors [54.81109375939306]
RGE-GSは、拡散に基づく生成と報酬誘導ガウス積分を相乗化する新しい拡張的再構築フレームワークである。
本稿では,復元フェーズに先立って一貫したパターンを識別・優先順位付けする報奨ネットワークを提案する。
復元過程において,シーン収束度に応じてガウス最適化の進捗を自動的に調整する学習戦略を考案した。
論文 参考訳(メタデータ) (2025-06-28T08:02:54Z) - GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks [36.39484385717512]
本稿では、生成勧告(GR)を多段階生成タスクとして扱い、GFlowNetsベースの微調整フレームワーク(GFlowGR)を構築する。
提案フレームワークは,従来のレコメンデータシステムからの協調的知識を統合し,適応的軌道サンプリングと包括的報酬モデルを作成する。
論文 参考訳(メタデータ) (2025-06-19T08:04:31Z) - GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning [17.544255491384046]
グループポリシーグラディエント(GPG)と呼ばれる最小主義的RLアプローチを提案する。
従来の手法とは異なり、GAGは元のRL目標を直接最適化するので、損失関数のサロゲートが不要になる。
本手法は補助的な技術や調整に頼ることなく優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-03T12:53:41Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Reward-RAG: Enhancing RAG with Reward Driven Supervision [43.66966457772646]
本稿では、Reward-Driven Supervisionを通じて、Retrieval-Augmented Generation(RAG)モデルを強化するために設計された新しいアプローチであるReward-RAGを紹介する。
従来のRAG手法とは異なり,本手法ではCriticGPTを用いて検索情報を特定の領域に適応させ,専用報酬モデルを訓練する。
この報酬モデルは、RAGを微調整するための合成データセットを生成し、その出力を人間の好みとより密に一致させる。
論文 参考訳(メタデータ) (2024-10-03T15:26:50Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。