論文の概要: DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2602.09744v1
- Date: Tue, 10 Feb 2026 12:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.538461
- Title: DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation
- Title(参考訳): DiffuReason: シーケンスレコメンデーションのためのブリッジング遅延推論と生成的リファインメント
- Authors: Jie Jiang, Yang Wu, Qian Li, Yuling Xiong, Yihang Su, Junbang Huo, Longfei Lu, Jun Zhang, Huan Yu,
- Abstract要約: 逐次レコメンデーションのための統合された「シンク・テン・ディフューズ」フレームワークであるDiffuReasonを提案する。
潜時推論のための多段階思考トークン、中間表現をデノナイズするための拡散ベースの洗練、およびエンドツーエンドのグループ相対ポリシー最適化を統合している。
4つのベンチマークの実験では、DiffuReasonはさまざまなバックボーンアーキテクチャを一貫して改善している。
- 参考スコア(独自算出の注目度): 20.756497463882763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent reasoning has emerged as a promising paradigm for sequential recommendation, enabling models to capture complex user intent through multi-step deliberation. Yet existing approaches often rely on deterministic latent chains that accumulate noise and overlook the uncertainty inherent in user intent, and they are typically trained in staged pipelines that hinder joint optimization and exploration. To address these challenges, we propose DiffuReason, a unified "Think-then-Diffuse" framework for sequential recommendation. It integrates multi-step Thinking Tokens for latent reasoning, diffusion-based refinement for denoising intermediate representations, and end-to-end Group Relative Policy Optimization (GRPO) alignment to optimize for ranking performance. In the Think stage, the model generates Thinking Tokens that reason over user history to form an initial intent hypothesis. In the Diffuse stage, rather than treating this hypothesis as the final output, we refine it through a diffusion process that models user intent as a probabilistic distribution, providing iterative denoising against reasoning noise. Finally, GRPO-based reinforcement learning enables the reasoning and refinement modules to co-evolve throughout training, without the constraints of staged optimization. Extensive experiments on four benchmarks demonstrate that DiffuReason consistently improves diverse backbone architectures. Online A/B tests on a large-scale industrial platform further validate its practical effectiveness.
- Abstract(参考訳): 遅延推論はシーケンシャルなレコメンデーションのための有望なパラダイムとして登場し、モデルがマルチステップの議論を通じて複雑なユーザ意図をキャプチャできるようにする。
しかし、既存のアプローチは、しばしばノイズを蓄積し、ユーザ意図に固有の不確実性を見落としている決定論的潜在チェーンに依存しており、それらは通常、共同最適化と探索を妨げる段階的なパイプラインで訓練されている。
これらの課題に対処するために、逐次レコメンデーションのための統合された"Think-then-Diffuse"フレームワークであるDiffuReasonを提案する。
遅延推論のための多段階思考トークン、中間表現をデノナイズするための拡散ベースの洗練、パフォーマンスの最適化のためにエンドツーエンドのグループ相対ポリシー最適化(GRPO)を統合している。
Thinkの段階では、モデルがユーザ履歴よりも理由のあるThinking Tokensを生成して、最初の意図仮説を形成する。
ディフューズ段階では、この仮説を最終出力として扱うのではなく、ユーザ意図を確率分布としてモデル化し、推論ノイズに対する反復的妄想を与える拡散過程を通じてこれを洗練する。
最後に、GRPOに基づく強化学習により、段階最適化の制約なしに、学習を通して推論および改良モジュールを共進化させることができる。
4つのベンチマークに関する大規模な実験により、DiffuReasonはさまざまなバックボーンアーキテクチャを継続的に改善している。
大規模産業プラットフォーム上でのオンラインA/Bテストは、その実用性をさらに検証する。
関連論文リスト
- Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction [41.53271688465831]
ユーザ行動軌跡予測(UBTP)を,長期ユーザの嗜好を明示的にモデル化するタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
論文 参考訳(メタデータ) (2025-11-01T12:16:24Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z) - REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems [25.59169452367297]
シーケンシャルレコメンデーションは,大規模レコメンデーションシステムにおけるユーザの次の行動を予測することを目的としている。
近年の研究では、ジェネレーティブレコメンデーションに推論プロセスを導入し、レコメンデーションパフォーマンスを大幅に改善している。
これらのアプローチは項目意味表現の特異性によって制約される。
本稿では,複数の動的意味論的推論経路を構成する推論強化生成モデルREG4Recを紹介する。
論文 参考訳(メタデータ) (2025-08-21T07:02:51Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Diffusion Generative Recommendation with Continuous Tokens [21.222713476105195]
ContRecは、連続トークンをLLMベースのRecSysにシームレスに統合するフレームワークである。
ContRecは従来型およびSOTA LLMベースのレコメンデータシステムよりも一貫して優れていることを示す。
本研究は,次世代レコメンデーションシステムにおける連続トークン化と生成モデリングの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-16T12:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。