論文の概要: RecGPT-V2 Technical Report
- arxiv url: http://arxiv.org/abs/2512.14503v1
- Date: Tue, 16 Dec 2025 15:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.769017
- Title: RecGPT-V2 Technical Report
- Title(参考訳): RecGPT-V2技術報告
- Authors: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Mao Zhang, Wen Chen, Wenjun Yang, Yujie Luo, Yuning Jiang, Zhujin Gao, Bo Zheng, Binbin Cao, Changfa Wu, Dixuan Wang, Han Wu, Haoyi Hu, Kewei Zhu, Lang Tian, Lin Yang, Qiqi Huang, Siqi Yang, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Xiaowei Huang, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yujin Yuan, Yuliang Yan, Zile Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、暗黙の行動パターンマッチングから明示的な意図推論へ、レコメンデータシステムを変換する大きな可能性を示している。
提案するRecGPT-V2には,暗黙的な行動パターンマッチングから明示的な意図推論へ,レコメンデータシステムを変換する4つの重要なイノベーションがある。
タオバオのオンラインA/Bテストでは、+2.98% CTR、+3.71% IPV、+2.19% TV、+11.46% NERが大幅に改善された。
- 参考スコア(独自算出の注目度): 41.57739441038769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards. To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、暗黙の行動パターンマッチングから明示的な意図推論へ、レコメンデータシステムを変換する大きな可能性を示している。
RecGPT-V1は、LCMに基づく推論をユーザ関心のマイニングとアイテムタグ予測に組み込むことによって、このパラダイムを開拓した一方で、(1)複数の推論経路にまたがる計算の非効率性と認知的冗長性、(2)固定時間生成における説明の多様性の欠如、(3)教師付き学習パラダイムによる限定的な一般化、(4)人間の基準に合致しない単純な結果重視評価の4つの基本的な制限を被った。
これらの課題に対処するため、RecGPT-V2には4つの重要なイノベーションがある。
まず、階層的マルチエージェントシステムは、協調的なコラボレーションを通じて意図の推論を再構築し、多様な意図のカバレッジを可能にしながら、認知的重複を排除します。
ユーザビヘイビアコンテキストを圧縮するHybrid Representation Inferenceと組み合わせることで、私たちのフレームワークはGPU使用量を60%削減し、排他的リコールを9.39%から10.99%に改善します。
第2に、メタプロンプトフレームワークは文脈適応的なプロンプトを動的に生成し、説明の多様性を+7.3%向上させる。
第3に、制約付き強化学習はマルチリワード競合を緩和し、タグ予測が+24.1%改善し、説明受け入れが+13.0%向上した。
第4に、Agent-as-a-Judgeフレームワークは、評価を多段階の推論に分解し、人間の嗜好の調整を改善する。
タオバオのオンラインA/Bテストでは、+2.98% CTR、+3.71% IPV、+2.19% TV、+11.46% NERが大幅に改善された。
RecGPT-V2は、LLMによる意図推論を大規模に展開し、認知探索と産業利用のギャップを埋めることの技術的実現可能性と商業的実現性の両方を確立している。
関連論文リスト
- Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文 参考訳(メタデータ) (2025-01-03T02:55:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。