論文の概要: OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation
- arxiv url: http://arxiv.org/abs/2512.22386v1
- Date: Fri, 26 Dec 2025 21:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.022943
- Title: OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation
- Title(参考訳): OxygenREC: 電子商取引レコメンデーションのための命令追従型生成フレームワーク
- Authors: Xuegang Hao, Ming Zhang, Alex Li, Xiangyu Qian, Zhi Ma, Yanlong Zang, Shijie Yang, Zhongxuan Han, Xiaolong Ma, Jinguang Liu, Zhen Li, Zhida Jiang, Shusheng Wang, Ning Tang, Yanchen Qiao, Chenxiang Yang, Chen Sun, Jincheng Yuan, Chunhua Peng, Heng Hu, Peijun Yang, Baopeng Yuan, Caiyun Qiu, Zhaolong Xing, Haofei Yuan, Haipeng Zhang, Yuzhang Guo, Weijie Ding, Jiahua Gao, Hao Huang, Zhen Chen, Tongxuan Liu, Pinghua Gong,
- Abstract要約: 我々は、Fast-Slow Thinkingを活用する産業レコメンデーションシステムであるOxygenRECを紹介し、厳密なレイテンシとマルチシナリオ要件による深い推論を実現する。
Instruction-Guided Retrieval (IGR) を用いた意味的アライメント機構を導入する。
我々はシナリオ情報を統一報酬マッピングとソフトアダプティブグループクリップポリシー最適化を用いて制御可能な命令に変換する。
- 参考スコア(独自算出の注目度): 19.602480244527182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional recommendation systems suffer from inconsistency in multi-stage optimization objectives. Generative Recommendation (GR) mitigates them through an end-to-end framework; however, existing methods still rely on matching mechanisms based on inductive patterns. Although responsive, they lack the ability to uncover complex user intents that require deductive reasoning based on world knowledge. Meanwhile, LLMs show strong deep reasoning capabilities, but their latency and computational costs remain challenging for industrial applications. More critically, there are performance bottlenecks in multi-scenario scalability: as shown in Figure 1, existing solutions require independent training and deployment for each scenario, leading to low resource utilization and high maintenance costs-a challenge unaddressed in GR literature. To address these, we present OxygenREC, an industrial recommendation system that leverages Fast-Slow Thinking to deliver deep reasoning with strict latency and multi-scenario requirements of real-world environments. First, we adopt a Fast-Slow Thinking architecture. Slow thinking uses a near-line LLM pipeline to synthesize Contextual Reasoning Instructions, while fast thinking employs a high-efficiency encoder--decoder backbone for real-time generation. Second, to ensure reasoning instructions effectively enhance recommendation generation, we introduce a semantic alignment mechanism with Instruction-Guided Retrieval (IGR) to filter intent-relevant historical behaviors and use a Query-to-Item (Q2I) loss for instruction-item consistency. Finally, to resolve multi-scenario scalability, we transform scenario information into controllable instructions, using unified reward mapping and Soft Adaptive Group Clip Policy Optimization (SA-GCPO) to align policies with diverse business objectives, realizing a train-once-deploy-everywhere paradigm.
- Abstract(参考訳): 従来のレコメンデーションシステムは、多段階最適化の目的において矛盾する。
Generative Recommendation (GR)は、エンドツーエンドのフレームワークを通じてそれらを緩和するが、既存のメソッドはインダクティブパターンに基づいたマッチングメカニズムに依存している。
応答性はあるものの、世界的知識に基づいて推論を必要とする複雑なユーザ意図を明らかにする能力は欠如している。
一方、LSMは深い推論能力を示すが、そのレイテンシと計算コストは産業アプリケーションでは依然として困難である。
図1に示すように、既存のソリューションでは、それぞれのシナリオに対して独立したトレーニングとデプロイメントを必要とします。
これらの問題に対処するために,我々は,Fast-Slow Thinkingを活用した産業レコメンデーションシステムであるOxygenRECを紹介した。
まず、Fast-Slow Thinkingアーキテクチャを採用します。
Slow Think はコンテキスト推論命令を合成するためにニアライン LLM パイプラインを使用し、fast thinking はリアルタイム生成に高効率エンコーダ-デコーダバックボーンを使用する。
第二に、推論命令がレコメンデーション生成を効果的に促進するために、インストラクション誘導検索(IGR)を用いたセマンティックアライメント機構を導入し、インストラクション関連過去の振る舞いをフィルタリングし、命令-イテム整合性のためにクエリ-ツー-アイテム(Q2I)損失を使用する。
最後に、シナリオ情報を制御可能な命令に変換し、統一された報酬マッピングとソフトアダプティブグループクリップポリシー最適化(SA-GCPO)を使用して、様々なビジネス目的とポリシーを整合させ、列車の発着着着着点のパラダイムを実現する。
関連論文リスト
- STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。
RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-24T01:39:34Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models [38.052380726704335]
AdaReasoner は LLM に依存しないプラグインで,任意の LLM が適応推論設定を自動化するように設計されている。
AdaReasonerは強化学習(RL)フレームワークを使用して訓練され、因子化されたアクション空間とターゲット探索戦略を組み合わせた。
標準ベースラインを一貫して上回り、分布外ロバスト性を保ち、調整されたプロンプトを通じて知識集約的なタスクに利益をもたらす。
論文 参考訳(メタデータ) (2025-05-22T22:06:11Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - LLM4MSR: An LLM-Enhanced Paradigm for Multi-Scenario Recommendation [52.55639178180821]
マルチシナリオレコメンデーション(MSR)の研究は注目されており、すべてのシナリオのデータを使用してレコメンデーションのパフォーマンスを同時に改善している。
既存の手法では、不十分なシナリオ知識を統合し、パーソナライズされたクロスシナリオの嗜好を無視する傾向があり、それによってサブ最適パフォーマンスがもたらされる。
本稿では,これらのギャップを埋めるために,大規模言語モデル (LLM) 拡張パラダイム LLM4MSR を提案する。
論文 参考訳(メタデータ) (2024-06-18T11:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。