論文の概要: S-GRec: Personalized Semantic-Aware Generative Recommendation with Asymmetric Advantage
- arxiv url: http://arxiv.org/abs/2602.10606v1
- Date: Wed, 11 Feb 2026 07:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.552644
- Title: S-GRec: Personalized Semantic-Aware Generative Recommendation with Asymmetric Advantage
- Title(参考訳): S-GRec:非対称アドバンテージを用いたパーソナライズされたセマンティック・アウェア・ジェネレーション・レコメンデーション
- Authors: Jie Jiang, Hongbo Tang, Wenjie Wu, Yangru Huang, Zhenmao Li, Qian Li, Changping Wang, Jun Zhang, Huan Yu,
- Abstract要約: S-GRecは、オンライン軽量ジェネレータをオフラインセマンティックジャッジから切り離して、列車時の監視を行うセマンティックアウェアフレームワークである。
S-GRecは2段階のパーソナライズドセマンティックジャッジ(PSJ)を導入し、解釈可能なアスペクトエビデンスを生成し、ユーザ条件アグリゲーションを学習する。
公開ベンチマークと大規模生産システムに関する大規模な実験は、有効性とスケーラビリティの両方を検証する。
- 参考スコア(独自算出の注目度): 20.189274601152363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative recommendation models sequence generation to produce items end-to-end, but training from behavioral logs often provides weak supervision on underlying user intent. Although Large Language Models (LLMs) offer rich semantic priors that could supply such supervision, direct adoption in industrial recommendation is hindered by two obstacles: semantic signals can conflict with platform business objectives, and LLM inference is prohibitively expensive at scale. This paper presents S-GRec, a semantic-aware framework that decouples an online lightweight generator from an offline LLM-based semantic judge for train-time supervision. S-GRec introduces a two-stage Personalized Semantic Judge (PSJ) that produces interpretable aspect evidence and learns user-conditional aggregation from pairwise feedback, yielding stable semantic rewards. To prevent semantic supervision from deviating from business goals, Asymmetric Advantage Policy Optimization (A2PO) anchors optimization on business rewards (e.g., eCPM) and injects semantic advantages only when they are consistent. Extensive experiments on public benchmarks and a large-scale production system validate both effectiveness and scalability, including statistically significant gains in CTR and a 1.19\% lift in GMV in online A/B tests, without requiring real-time LLM inference.
- Abstract(参考訳): 生成レコメンデーションは、アイテムをエンドツーエンドに生成するためにシーケンス生成をモデル化するが、振る舞いログからのトレーニングは、基礎となるユーザの意図に対する弱い監督を提供することが多い。
大規模言語モデル(LLM)は、そのような監視を提供するようなリッチなセマンティックな事前情報を提供するが、産業的レコメンデーションへの直接的な採用は、セマンティックシグナルがプラットフォームビジネスの目的と矛盾する可能性があることと、LLM推論が大規模で違法に高価なことの2つの障害によって妨げられている。
本稿では,S-GRecについて述べる。S-GRecは,オンライン・ライトウェイト・ジェネレータをオフラインのLCMベースのセマンティック・ジャッジから切り離して,列車の時間管理を行うためのセマンティック・アウェア・フレームワークである。
S-GRecは2段階のパーソナライズドセマンティックジャッジ(PSJ)を導入し、解釈可能なアスペクトエビデンスを生成し、ペアのフィードバックからユーザ条件アグリゲーションを学び、安定したセマンティック報酬を得る。
セマンティックな管理がビジネス目標から逸脱することを防ぐため、非対称なアドバンテージポリシー最適化(A2PO)はビジネス報酬(例えばeCPM)の最適化をアンロックし、一貫性のある場合にのみセマンティックなアドバンテージを注入します。
パブリックベンチマークと大規模生産システムに関する大規模な実験は、リアルタイムLLM推論を必要とせず、CTRの統計的に有意な増加とオンラインA/BテストにおけるGMVの1.19\%の上昇を含む、有効性とスケーラビリティの両方を検証する。
関連論文リスト
- Should I Have Expressed a Different Intent? Counterfactual Generation for LLM-Based Autonomous Control [31.47957931665684]
大規模言語モデル(LLM)を利用したエージェントは、高レベルのユーザ意図を環境内の計画や行動に変換することができる。
本稿では,エージェント制御シナリオにおいて,そのような反実的推論を可能にするフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-27T22:18:57Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Generative Reasoning Recommendation via LLMs [48.45009951684554]
大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)として機能する上で、根本的な課題に直面している。
本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。
本稿では,協調的セマンティックアライメント(Collaborative-Semantic Alignment),Reasoning Curriculum Activation(Reasoning Curriculum Activation),Sparse-Regularized Group Policy Optimization(Sparse-Regularized Group Policy Optimization)の3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
論文 参考訳(メタデータ) (2025-10-23T17:59:31Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - FACTER: Fairness-Aware Conformal Thresholding and Prompt Engineering for Enabling Fair LLM-Based Recommender Systems [4.825037489691159]
LLMに基づくリコメンデーションシステムのためのフェアネス対応フレームワークであるFACTERを提案する。
適応的意味分散しきい値と違反トリガー機構を導入することにより、FACTERはバイアスパターンが現れるたびに自動的に公正性制約を厳格化する。
MovieLensとAmazonの実証的な結果は、FACTERが強い推奨精度を維持しつつ、フェアネス違反(最大95.5%)を大幅に低減していることを示している。
論文 参考訳(メタデータ) (2025-02-05T08:07:04Z) - Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator [60.07198935747619]
動的セマンティック・インデックス・パラダイムを採用した最初の生成型RSであるTTDS(Twin-Tower Dynamic Semantic Recommender)を提案する。
より具体的には、ツイン・トワー・セマンティック・トークン・ジェネレータをLLMベースのレコメンデータに統合する動的知識融合フレームワークを初めて提案する。
提案したTTDSレコメンデータは,平均19.41%のヒットレート,20.84%のNDCG測定値を実現している。
論文 参考訳(メタデータ) (2024-09-14T01:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。