論文の概要: HiGR: Efficient Generative Slate Recommendation via Hierarchical Planning and Multi-Objective Preference Alignment
- arxiv url: http://arxiv.org/abs/2512.24787v1
- Date: Wed, 31 Dec 2025 11:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.630267
- Title: HiGR: Efficient Generative Slate Recommendation via Hierarchical Planning and Multi-Objective Preference Alignment
- Title(参考訳): HiGR:階層的計画と多目的選好アライメントによる効率的な生成スレートレコメンデーション
- Authors: Yunsheng Pang, Zijian Liu, Yudong Li, Shaojie Zhu, Zijian Luo, Chenyun Yu, Sikai Wu, Shichen Shen, Cong Xu, Bin Wang, Kai Jiang, Hongyong Yu, Chengxiang Zhuo, Zang Li,
- Abstract要約: HiGRは効率的な生成スレートレコメンデーションフレームワークであり、階層的計画とリストワイドな優先順位調整を統合している。
大規模な商用メディアプラットフォームの実験では、HiGRがオフライン評価とオンラインデプロイメントの両方で一貫した改善を実現しています。
- 参考スコア(独自算出の注目度): 22.73838860623495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slate recommendation, where users are presented with a ranked list of items simultaneously, is widely adopted in online platforms. Recent advances in generative models have shown promise in slate recommendation by modeling sequences of discrete semantic IDs autoregressively. However, existing autoregressive approaches suffer from semantically entangled item tokenization and inefficient sequential decoding that lacks holistic slate planning. To address these limitations, we propose HiGR, an efficient generative slate recommendation framework that integrates hierarchical planning with listwise preference alignment. First, we propose an auto-encoder utilizing residual quantization and contrastive constraints to tokenize items into semantically structured IDs for controllable generation. Second, HiGR decouples generation into a list-level planning stage for global slate intent, followed by an item-level decoding stage for specific item selection. Third, we introduce a listwise preference alignment objective to directly optimize slate quality using implicit user feedback. Experiments on our large-scale commercial media platform demonstrate that HiGR delivers consistent improvements in both offline evaluations and online deployment. Specifically, it outperforms state-of-the-art methods by over 10% in offline recommendation quality with a 5x inference speedup, while further achieving a 1.22% and 1.73% increase in Average Watch Time and Average Video Views in online A/B tests.
- Abstract(参考訳): ユーザが同時にランク付けされたアイテムのリストを提示するスレートレコメンデーションは、オンラインプラットフォームで広く採用されている。
生成モデルの最近の進歩は、個別のセマンティックIDのシーケンスを自己回帰的にモデル化することで、スレートレコメンデーションにおいて有望であることが示されている。
しかし、既存の自己回帰的アプローチは、意味的に絡み合ったアイテムトークン化と、全体的なスレート計画に欠ける非効率なシーケンシャルデコーディングに悩まされている。
これらの制約に対処するために、階層的計画とリストワイドな選好アライメントを統合した効率的な生成スレートレコメンデーションフレームワークであるHiGRを提案する。
まず、残差量子化とコントラスト制約を利用してアイテムを意味的に構造化したIDにトークン化する自動エンコーダを提案する。
第2に、HiGRは生成をグローバルスレートインテントのためのリストレベル計画ステージに分離し、続いて特定のアイテム選択のためのアイテムレベルデコードステージに分割する。
第3に、暗黙のユーザフィードバックを用いて、スレート品質を直接最適化するリストワイズ選好アライメントの目的を導入する。
大規模な商用メディアプラットフォームの実験では、HiGRがオフライン評価とオンラインデプロイメントの両方で一貫した改善を実現しています。
具体的には、5倍の推論スピードアップでオフラインの推奨品質を10%以上向上させ、オンラインA/Bテストでは平均視聴時間と平均視聴時間が1.22%と1.73%向上した。
関連論文リスト
- Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction [41.53271688465831]
ユーザ行動軌跡予測(UBTP)を,長期ユーザの嗜好を明示的にモデル化するタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
論文 参考訳(メタデータ) (2025-11-01T12:16:24Z) - GReF: A Unified Generative Framework for Efficient Reranking via Ordered Multi-token Prediction [12.254397628788647]
ランク付けは、項目間のリスト内相関をモデル化する上で重要な役割を果たす。
最近の研究は2段階(ジェネレータ・評価器)パラダイムを踏襲している。
本稿では,2つの主要な課題に対処するため,GReF(Unified Generative Efficient Re rank Framework)を提案する。
論文 参考訳(メタデータ) (2025-10-29T06:54:42Z) - Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning [70.6126069527741]
ConvRec-R1は会話レコメンデーションシステムのエンドツーエンドトレーニングのための2段階のフレームワークである。
ステージ1では,Remap-Reflect-Adjustパイプラインを用いた行動閉鎖データセットを構築した。
ステージ2では,グループ相対政策最適化の原則的拡張である Rank-GRPO を提案する。
論文 参考訳(メタデータ) (2025-10-23T02:56:00Z) - End-to-End Personalization: Unifying Recommender Systems with Large Language Models [0.0]
グラフ注意ネットワーク(GAT)と大言語モデル(LLM)を組み合わせた新しいハイブリッドレコメンデーションフレームワークを提案する。
LLMは、タイトル、ジャンル、概要などのメタデータに基づいて意味的に意味のあるプロファイルを生成することによって、ユーザーとアイテムの表現を豊かにするために最初に使用される。
MovieLens 100kと1Mを含むベンチマークデータセットでモデルを評価し、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-02T22:46:50Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment [9.99840965933561]
ケースドラーニングフレームワークを統一的な生成モデルで置き換えるOneRecを提案する。
1) ユーザの履歴行動シーケンスをエンコードし、ユーザが興味を持っているかもしれない動画を徐々にデコードするエンコーダ・デコーダ構造。
論文 参考訳(メタデータ) (2025-02-26T09:25:10Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator [60.07198935747619]
動的セマンティック・インデックス・パラダイムを採用した最初の生成型RSであるTTDS(Twin-Tower Dynamic Semantic Recommender)を提案する。
より具体的には、ツイン・トワー・セマンティック・トークン・ジェネレータをLLMベースのレコメンデータに統合する動的知識融合フレームワークを初めて提案する。
提案したTTDSレコメンデータは,平均19.41%のヒットレート,20.84%のNDCG測定値を実現している。
論文 参考訳(メタデータ) (2024-09-14T01:45:04Z) - Generative Recommender with End-to-End Learnable Item Tokenization [51.82768744368208]
ETEGRecは、アイテムのトークン化と生成レコメンデーションを結合的なフレームワークに統合する、新しいエンドツーエンド生成レコメンダである。
ETEGRecは、アイテムトークンライザと、デュアルエンコーダ-デコーダアーキテクチャ上に構築された生成レコメンデータで構成されている。
我々は、フレームワーク全体の安定的で効率的なエンドツーエンドトレーニングを保証するために、交互に最適化する手法を開発した。
論文 参考訳(メタデータ) (2024-09-09T12:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。