論文の概要: OneRec-V2 Technical Report
- arxiv url: http://arxiv.org/abs/2508.20900v1
- Date: Thu, 28 Aug 2025 15:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.47998
- Title: OneRec-V2 Technical Report
- Title(参考訳): OneRec-V2技術報告
- Authors: Guorui Zhou, Hengrui Hu, Hongtao Cheng, Huanjie Wang, Jiaxin Deng, Jinghao Zhang, Kuo Cai, Lejian Ren, Lu Ren, Liao Yu, Pengfei Zheng, Qiang Luo, Qianqian Wang, Qigen Hu, Rui Huang, Ruiming Tang, Shiyao Wang, Shujie Yang, Tao Wu, Wuchao Li, Xinchen Luo, Xingmei Wang, Yi Su, Yunfan Wu, Zexuan Cheng, Zhanyu Liu, Zixing Zhang, Bin Zhang, Boxuan Wang, Chaoyi Ma, Chengru Song, Chenhui Wang, Chenglong Chu, Di Wang, Dongxue Meng, Dunju Zang, Fan Yang, Fangyu Zhang, Feng Jiang, Fuxing Zhang, Gang Wang, Guowang Zhang, Han Li, Honghui Bao, Hongyang Cao, Jiaming Huang, Jiapeng Chen, Jiaqiang Liu, Jinghui Jia, Kun Gai, Lantao Hu, Liang Zeng, Qiang Wang, Qidong Zhou, Rongzhou Zhang, Shengzhe Wang, Shihui He, Shuang Yang, Siyang Mao, Sui Huang, Tiantian He, Tingting Gao, Wei Yuan, Xiao Liang, Xiaoxiao Xu, Xugang Liu, Yan Wang, Yang Zhou, Yi Wang, Yiwu Liu, Yue Song, Yufei Zhang, Yunfeng Zhao, Zhixin Ling, Ziming Li,
- Abstract要約: OneRecは、自己回帰生成タスクとしてレコメンデーションを再構築し、高いモデルFLOPの利用を達成する。
Lazy Decoder-Only Architecture: エンコーダボトルネックを排除し、全体の計算を94%削減し、トレーニングリソースを90%削減する。
現実のユーザインタラクションによる優先度調整: ユーザの好みに合うように、継続意識のリワードシェイピングとアダプティブ比クリッピングを組み込む。
- 参考スコア(独自算出の注目度): 93.91714323473678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in generative AI have transformed recommender systems through end-to-end generation. OneRec reformulates recommendation as an autoregressive generation task, achieving high Model FLOPs Utilization. While OneRec-V1 has shown significant empirical success in real-world deployment, two critical challenges hinder its scalability and performance: (1) inefficient computational allocation where 97.66% of resources are consumed by sequence encoding rather than generation, and (2) limitations in reinforcement learning relying solely on reward models. To address these challenges, we propose OneRec-V2, featuring: (1) Lazy Decoder-Only Architecture: Eliminates encoder bottlenecks, reducing total computation by 94% and training resources by 90%, enabling successful scaling to 8B parameters. (2) Preference Alignment with Real-World User Interactions: Incorporates Duration-Aware Reward Shaping and Adaptive Ratio Clipping to better align with user preferences using real-world feedback. Extensive A/B tests on Kuaishou demonstrate OneRec-V2's effectiveness, improving App Stay Time by 0.467%/0.741% while balancing multi-objective recommendations. This work advances generative recommendation scalability and alignment with real-world feedback, representing a step forward in the development of end-to-end recommender systems.
- Abstract(参考訳): 生成AIの最近のブレークスルーは、エンド・ツー・エンド・ジェネレーションを通じてレコメンデータシステムを変革している。
OneRecは、自己回帰生成タスクとしてレコメンデーションを再構築し、高いモデルFLOPの利用を達成する。
OneRec-V1は実世界の展開において経験的な成功をおさめたが、そのスケーラビリティと性能の障害となる2つの重要な課題は、(1) 資源の97.66%が生成ではなくシーケンスエンコーディングによって消費される非効率な計算割り当て、(2) 報酬モデルのみに依存する強化学習の制限である。
1)遅延デコーダオンリーアーキテクチャ:エンコーダボトルネックを排除し、総計算量を94%削減し、リソースを90%削減し、8Bパラメータへのスケーリングを成功させる。
2) 現実のユーザインタラクションによる優先アライメント: 実世界のフィードバックを用いて, ユーザの嗜好に合うように, 継続意識のリワードシェーピングと適応率クリッピングを組み込む。
Kuaishouの大規模なA/Bテストは、OneRec-V2の有効性を示し、App Stay Timeを0.467%/0.741%改善し、マルチオブジェクトレコメンデーションのバランスをとる。
この作業は、生成的なレコメンデーションのスケーラビリティと現実世界のフィードバックとの整合性を促進し、エンド・ツー・エンドのレコメンデーション・システムの開発における一歩を踏み出した。
関連論文リスト
- OneRec Technical Report [65.24343832974165]
提案するOneRecは,エンド・ツー・エンドのジェネレーティブ・アプローチによってレコメンデーションシステムを再評価する。
まず、現在のレコメンデーションモデルの計算FLOPを10$times$で拡張し、特定のバウンダリ内でのレコメンデーションのスケーリング法則を特定した。
第2に、推薦の最適化にこれまで適用が困難であった強化学習技術は、この枠組みに有意な可能性を示している。
論文 参考訳(メタデータ) (2025-06-16T16:58:55Z) - SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping [30.85025293160079]
生成プロセスにおける高周波コンポーネント、または後続のステップは、推論遅延に不均等に寄与する。
ステップ冗長性と非条件分岐冗長性の2つの主要な非効率性の原因を同定する。
本稿では、不要な生成ステップを選択的に省略して効率を向上させる自動ステップスキッピング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-10T15:35:29Z) - Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning [6.44608398856033]
Rec-R1は大規模言語モデル(LLM)をクローズドループ最適化を通じてレコメンデーションシステムでブリッジする。
プロンプトや教師付き微調整(SFT)とは異なり、Rec-R1は固定ブラックボックスレコメンデーションモデルからのフィードバックを使って直接LLM生成を最適化する。
論文 参考訳(メタデータ) (2025-03-31T16:36:00Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。