論文の概要: R3-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2604.11440v2
- Date: Tue, 14 Apr 2026 06:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.443336
- Title: R3-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation
- Title(参考訳): R3-VAE:Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation
- Authors: Qiang Wan, Ze Yang, Dawei Yang, Ying Fan, Xin Yan, Siyang Liu,
- Abstract要約: Generative Recommendation (GR)は、優れたパフォーマンスとコールドスタート能力のメリットで注目を集めている。
ベクトル量子化に基づくSID生成技術は2つの課題に直面している。
本稿では,これらの課題に対処するため,参照ベクトル誘導型残留量子化VAE(R3-VAE)を提案する。
- 参考スコア(独自算出の注目度): 19.840582350355813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Recommendation (GR) has gained traction for its merits of superior performance and cold-start capability. As the vital role in GR, Semantic Identifiers (SIDs) represent item semantics through discrete tokens. However, current techniques for SID generation based on vector quantization face two main challenges: (i) training instability, stemming from insufficient gradient propagation through the straight-through estimator and sensitivity to initialization; and (ii) inefficient SID quality assessment, where industrial practice still depends on costly GR training and A/B testing. To address these challenges, we propose Reference Vector-Guided Rating Residual Quantization VAE (R3-VAE). This framework incorporates three key innovations: (i) a reference vector that functions as a semantic anchor for the initial features, thereby mitigating sensitivity to initialization; (ii) a dot product-based rating mechanism designed to stabilize the training process and prevent codebook collapse; and (iii) two SID evaluation metrics, Semantic Cohesion and Preference Discrimination, serving as regularization terms during training. Empirical results on six benchmarks demonstrate that R3-VAE outperforms state-of-the-art methods, achieving an average improvement of 14.2% in Recall@10 and 15.5% in NDCG@10 across three Amazon datasets. Furthermore, we perform GR training and online A/B tests on Toutiao. Our method achieves a 1.62% improvement in MRR and a 0.83% gain in StayTime/U versus baselines. Additionally, we employ R3-VAE to replace the item ID of CTR model, resulting in significant improvements in content cold start by 15.36%, corroborating the strong applicability and business value in industry-scale recommendation scenarios.
- Abstract(参考訳): Generative Recommendation (GR)は、優れたパフォーマンスとコールドスタート能力のメリットで注目を集めている。
GRにおける重要な役割として、セマンティック識別子(SID)は離散トークンを通してアイテムセマンティクスを表現する。
しかし、ベクトル量子化に基づくSID生成の現在の技術は2つの課題に直面している。
一 ストレートスルー推定器による勾配伝播の不十分及び初期化に対する感受性から起因した訓練不安定性
(II)産業実践が依然としてコストのかかるGRトレーニングとA/Bテストに依存している非効率なSID品質評価。
これらの課題に対処するため,R3-VAE(Reference Vector-Guided Rating Residual Quantization VAE)を提案する。
このフレームワークには3つの重要なイノベーションが含まれている。
一 初期特徴のセマンティックアンカーとして機能し、したがって初期化に対する感受性を緩和する参照ベクトル
二 学習過程を安定させ、コードブックの崩壊を防止するために考案されたドット製品に基づく格付け機構
3)2つのSID評価指標であるセマンティック・コヒージョン(Semantic Cohesion)とPreference Discrimination(Preference Discrimination)は,トレーニング中の正規化用語として機能する。
6つのベンチマークによる実証的な結果によると、R3-VAEは最先端の手法よりも優れており、Recall@10では平均14.2%、NDCG@10では3つのデータセットで平均15.5%向上している。
さらに,Toutiao上でGRトレーニングとオンラインA/Bテストを実施している。
本手法は,MRRが1.62%向上し,StayTime/Uが0.83%向上した。
さらに、CTRモデルのアイテムIDを置き換えるためにR3-VAEを採用しており、業界規模のレコメンデーションシナリオにおいて、強い適用性とビジネス価値を裏付けるコンテンツコールドスタートが15.36%向上した。
関連論文リスト
- RGAlign-Rec: Ranking-Guided Alignment for Latent Query Reasoning in Recommendation Systems [25.34524038198569]
本稿では,プロアクティブな意図予測のための閉ループアライメントフレームワーク RGAlign-Rec を提案する。
また、マルチステージトレーニングパラダイムであるRGA(Ranning-Guided Alignment)も導入する。
我々のフレームワークはGAUCで0.12%向上し、エラー率を3.52%削減し、Recall@3で0.56%改善した。
論文 参考訳(メタデータ) (2026-02-13T14:38:02Z) - R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Character-R1: Enhancing Role-Aware Reasoning in Role-Playing Agents via RLVR [67.66592867046229]
character-R1は効果的な役割認識推論のための検証可能な報酬信号を提供するために設計されたフレームワークである。
本フレームワークは,認知的フォーカス・リワード(Cognitive Focus Reward),参照ガイド・リワード(Reference-Guided Reward),文字指定リワード正規化( character-Conditioned Reward normalization)の3つのコア設計で構成されている。
論文 参考訳(メタデータ) (2026-01-08T05:33:37Z) - SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment [12.949322198287417]
本研究では,モデル表現から派生した本質的,アノテーションのない品質信号である安定階数を提案する。
安定ランク群相対政策最適化 (SR-GRPO) を導入し, 安定ランクを強化学習の報奨信号として利用する。
この結果から,内部モデル形状から品質信号を抽出し,外部の監視なしに拡張性のあるアライメントへの経路を提供することができた。
論文 参考訳(メタデータ) (2025-12-02T14:21:29Z) - MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation [44.05859062614669]
MiniOneRecは、最初の完全なオープンソースジェネレーティブレコメンデーションフレームワークである。
SID構築にまたがるエンドツーエンドワークフロー、教師付き微調整、レコメンデーション指向の強化学習を提供する。
実験の結果,モデルサイズの増加に伴い,トレーニングと評価の両方の損失が一貫した下降傾向を示した。
論文 参考訳(メタデータ) (2025-10-28T13:58:36Z) - PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling [19.258007121955924]
Preference-Aware Task-Aware Reward Model (PaTaRM) は、Rest-Aware rewardメカニズムと動的ルーリック適応を統合した統合フレームワークである。
PaTaRMは、IFEvalとInFoBenchベンチマークで平均13.6%改善され、下流RLHFのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-10-28T09:43:47Z) - FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets [64.51403245281547]
FORGEは、産業データセットを使ったジェネレーティブrEtrievalにおけるFOrmingセマンティック識別のベンチマークである。
現実世界のアプリケーションでは、オンラインコンバージェンスを半減するオフライン事前トレーニングスキーマが導入されている。
論文 参考訳(メタデータ) (2025-09-25T08:44:22Z) - RAG-Gym: Systematic Optimization of Language Agents for Retrieval-Augmented Generation [43.50113345998687]
本稿では,(1)プロンプトエンジニアリング,(2)アクターチューニング,(3)批判的トレーニングという,3つの最適化次元を探求する総合的なプラットフォームであるRAG-Gymを紹介する。
本稿では,リフレクション推論を取り入れた新しいエージェントであるRe$2$Searchを提案する。
アクターチューニングにおいて,プロセスの監督をきめ細かい3つの人気のあるポストトレーニングアルゴリズムを評価し,直接選好最適化を最も効果的に評価する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。