論文の概要: LARES: Latent Reasoning for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2505.16865v1
- Date: Thu, 22 May 2025 16:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.452783
- Title: LARES: Latent Reasoning for Sequential Recommendation
- Title(参考訳): LARES: シークエンシャルレコメンデーションのための潜伏推論
- Authors: Enze Liu, Bowen Zheng, Xiaolei Wang, Wayne Xin Zhao, Jinpeng Wang, Sheng Chen, Ji-Rong Wen,
- Abstract要約: 本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
LARESは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上することを示す。
- 参考スコア(独自算出の注目度): 96.26996622771593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential recommender systems have become increasingly important in real-world applications that model user behavior sequences to predict their preferences. However, existing sequential recommendation methods predominantly rely on non-reasoning paradigms, which may limit the model's computational capacity and result in suboptimal recommendation performance. To address these limitations, we present LARES, a novel and scalable LAtent REasoning framework for Sequential recommendation that enhances model's representation capabilities through increasing the computation density of parameters by depth-recurrent latent reasoning. Our proposed approach employs a recurrent architecture that allows flexible expansion of reasoning depth without increasing parameter complexity, thereby effectively capturing dynamic and intricate user interest patterns. A key difference of LARES lies in refining all input tokens at each implicit reasoning step to improve the computation utilization. To fully unlock the model's reasoning potential, we design a two-phase training strategy: (1) Self-supervised pre-training (SPT) with dual alignment objectives; (2) Reinforcement post-training (RPT). During the first phase, we introduce trajectory-level alignment and step-level alignment objectives, which enable the model to learn recommendation-oriented latent reasoning patterns without requiring supplementary annotated data. The subsequent phase utilizes reinforcement learning (RL) to harness the model's exploratory ability, further refining its reasoning capabilities. Comprehensive experiments on real-world benchmarks demonstrate our framework's superior performance. Notably, LARES exhibits seamless compatibility with existing advanced models, further improving their recommendation performance.
- Abstract(参考訳): ユーザの行動シーケンスをモデル化して好みを予測する実世界のアプリケーションでは,シークエンシャルレコメンデータシステムがますます重要になっている。
しかし、既存のシーケンシャルレコメンデーション手法は主に非推論パラダイムに依存しており、これはモデルの計算能力を制限し、最適以下のレコメンデーション性能をもたらす可能性がある。
これらの制約に対処するため、LARESは、深度反復潜時推論によるパラメータの計算密度を増大させることにより、モデルの表現能力を向上するシーケンシャルレコメンデーションのための、新しくスケーラブルなLAtent Reasoningフレームワークである。
提案手法では,パラメータの複雑さを増大させることなく推論深度を柔軟に拡張し,動的かつ複雑なユーザ関心パターンを効果的に捉えることができる。
LARESの主な違いは、計算利用を改善するために暗黙の推論ステップで全ての入力トークンを精算することである。
モデルの推論可能性を完全に解き放つために,(1)2つのアライメント目標を持つ自己教師付き事前学習(SPT),(2)強化後学習(RPT)という2段階のトレーニング戦略を設計する。
第1フェーズでは,付加的なアノテートデータを必要としないレコメンデーション指向の潜在推論パターンを学習可能な,軌道レベルのアライメントとステップレベルのアライメントの目標を導入する。
その後のフェーズでは、強化学習(RL)を使用してモデルの探索能力を活用し、推論能力をさらに強化する。
実世界のベンチマークに関する総合的な実験は、我々のフレームワークの優れた性能を示している。
特に、LARESは既存の高度なモデルとのシームレスな互換性を示し、レコメンデーション性能をさらに改善している。
関連論文リスト
- SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - Slow Thinking for Sequential Recommendation [88.46598279655575]
本稿では,STREAM-Recという新しいスローシンキングレコメンデーションモデルを提案する。
弊社のアプローチは、過去のユーザの振る舞いを分析し、多段階の熟考的推論プロセスを生成し、パーソナライズされたレコメンデーションを提供する。
具体的には,(1)レコメンデーションシステムにおける適切な推論パターンを特定すること,(2)従来のレコメンデーションシステムの推論能力を効果的に刺激する方法を検討すること,の2つの課題に焦点を当てる。
論文 参考訳(メタデータ) (2025-04-13T15:53:30Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。