論文の概要: Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2602.10699v1
- Date: Wed, 11 Feb 2026 09:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.679191
- Title: Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation
- Title(参考訳): 支払い先:価値誘導型構造化サンプリングとジェネレーティブレコメンデーションのための最適化
- Authors: Jie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu,
- Abstract要約: 本稿では,価値誘導型サンプリングおよびツリー構造化アドバンテージ強化フレームワークであるV-STARを提案する。
V-STARは2つの相乗的成分を介して自己進化ループを形成する。まず、決定ノードを識別し、高次接頭辞を選択的に深めるために価値誘導効率復号法(VED)を開発する。
第2に、誘導木トポロジーを利用して兄弟関係の利点を計算し、決定的な分岐決定に学習信号に集中するシブリング-GRPOを提案する。
- 参考スコア(独自算出の注目度): 16.991391135071513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.
- Abstract(参考訳): 自己回帰モデルによる生成レコメンデーションは、検索とランキングを単一の条件生成フレームワークに統一する。
しかし、Reinforcement Learning (RL) を用いてこれらのモデルを微調整することは、しばしば基本的な確率回帰ミスマッチに悩まされる。
1)低確率分岐における高次アイテムが早期に切断され、サンプリングされることが稀な探索が不十分な探索と,(2)高確率分岐を共有しているトラジェクタが低いグループ内分散で高い相関的な報酬を受け取り、RLの弱い比較信号が得られる有利な圧縮である。
これらの課題に対処するため、我々は価値誘導サンプリングおよびツリー構造化アドバンテージ強化フレームワークであるV-STARを提案する。
V-STARは2つの相乗的成分を介して自己進化ループを形成する。
第一に、決定ノードを識別し、高能率プレフィックスを選択的に深めるために、VED(Value-Guided Efficient Decoding)を開発した。
これにより、網羅的な木探索をせずに探索効率が向上する。
第2に、誘導木トポロジーを利用して兄弟関係の利点を計算し、決定的な分岐決定に学習信号に集中するシブリング-GRPOを提案する。
オフラインとオンライン両方のデータセットに対する大規模な実験により、V-STARは最先端のベースラインよりも優れ、厳格なレイテンシ制約下での精度と候補セットの多様性を提供することが示された。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization [32.17940023097263]
マルチターンツール統合推論により、大規模言語モデル(LLM)は反復情報検索によって複雑なタスクを解くことができる。
探索強化推論のための現在の強化学習(RL)フレームワークは、少ない結果レベルの報酬に依存している。
この問題に対処するために,ターンレベル段階対応政策最適化(TSPO)を提案する。
論文 参考訳(メタデータ) (2026-01-30T09:58:45Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - Enhancing GANs with Contrastive Learning-Based Multistage Progressive Finetuning SNN and RL-Based External Optimization [0.0]
Gene Adversarial Networks (GAN) は画像合成の最前線にあり、特に病理学のような医学分野において、データの不足、患者のプライバシー、クラス不均衡といった課題に対処している。
GANでは、トレーニングの不安定性、モード崩壊、バイナリ分類からのフィードバック不足がパフォーマンスを損なう可能性がある。
これらの課題は、複雑な特徴表現と空間的詳細のため、特に高解像度の病理像で顕著である。
論文 参考訳(メタデータ) (2024-09-30T14:39:56Z) - Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。
DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。
非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文 参考訳(メタデータ) (2024-08-21T05:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。