論文の概要: DTRec: Learning Dynamic Reasoning Trajectories for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2512.14036v1
- Date: Tue, 16 Dec 2025 03:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.561349
- Title: DTRec: Learning Dynamic Reasoning Trajectories for Sequential Recommendation
- Title(参考訳): DTRec:シークエンシャルレコメンデーションのための動的推論軌道の学習
- Authors: Yifan Shao, Peilin Zhou, Shoujin Wang, Weizhi Zhang, Xu Cai, Sunghun Kim,
- Abstract要約: DTRecは,シークエンシャルレコメンデーションのための動的推論軌道を,方向と深さの両方に沿って探索する,新規かつ効果的なフレームワークである。
この方向を導くために,人間の認知過程の自然な,進歩的な洗練をエミュレートする粗大な監督信号を提供する階層的プロセススーパービジョン(HPS)を開発した。
この深さを最適化するために,3つの指標を共同で監視することにより,推論ステップの数を動的に調整するアダプティブ・推論・ハルティング(ARH)機構を導入する。
- 参考スコア(独自算出の注目度): 19.181171482637513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by advances in LLMs, reasoning-enhanced sequential recommendation performs multi-step deliberation before making final predictions, unlocking greater potential for capturing user preferences. However, current methods are constrained by static reasoning trajectories that are ill-suited for the diverse complexity of user behaviors. They suffer from two key limitations: (1) a static reasoning direction, which uses flat supervision signals misaligned with human-like hierarchical reasoning, and (2) a fixed reasoning depth, which inefficiently applies the same computational effort to all users, regardless of pattern complexity. These rigidity lead to suboptimal performance and significant computational waste. To overcome these challenges, we propose DTRec, a novel and effective framework that explores the Dynamic reasoning Trajectory for Sequential Recommendation along both direction and depth. To guide the direction, we develop Hierarchical Process Supervision (HPS), which provides coarse-to-fine supervisory signals to emulate the natural, progressive refinement of human cognitive processes. To optimize the depth, we introduce the Adaptive Reasoning Halting (ARH) mechanism that dynamically adjusts the number of reasoning steps by jointly monitoring three indicators. Extensive experiments on three real-world datasets demonstrate the superiority of our approach, achieving up to a 24.5% performance improvement over strong baselines while simultaneously reducing computational cost by up to 41.6%.
- Abstract(参考訳): LLMの進歩に触発されて、推論の強化されたシーケンシャルレコメンデーションは、最終的な予測を行う前に多段階の議論を行い、ユーザの好みを捉える大きな可能性を解き放つ。
しかし、現在の手法は、ユーザの振る舞いの複雑さに不適な静的推論トラジェクトリによって制約されている。
1)人間のような階層的推論と一致しないフラットな監視信号を使用する静的推論方向と,(2)パターンの複雑さに関わらず,すべてのユーザに対して非効率に同じ計算作業を適用する固定的推論深さの2つの重要な制限がある。
これらの剛性は、最適以下の性能と重要な計算時間の浪費につながる。
これらの課題を克服するために、DTRecを提案する。DTRecは、シークエンシャルレコメンデーションのための動的推論軌道を、方向と深さの両方に沿って探索する、新しく効果的なフレームワークである。
この方向を導くために,人間の認知過程の自然な,進歩的な洗練をエミュレートする粗大な監督信号を提供する階層的プロセススーパービジョン(HPS)を開発した。
この深さを最適化するために,3つの指標を共同で監視することにより,推論ステップの数を動的に調整するアダプティブ・推論・ハルティング(ARH)機構を導入する。
3つの実世界のデータセットに対する大規模な実験は、我々のアプローチの優位性を示し、強いベースラインよりも最大24.5%の性能向上を実現し、同時に計算コストを最大41.6%削減した。
関連論文リスト
- AsarRec: Adaptive Sequential Augmentation for Robust Self-supervised Sequential Recommendation [18.47848960425837]
シークエンシャルレコメンダシステムは、ユーザの動的嗜好をモデル化し、アイテム遷移パターンをキャプチャする強力な機能を示している。
ヒューマンエラー、不確実性、行動の曖昧さは、劣化したレコメンデーションのパフォーマンスにつながる。
AsarRecは、ユーザシーケンスを確率的遷移シーケンスにエンコードすることで、変換行列を生成することを学習する。
論文 参考訳(メタデータ) (2025-12-16T03:29:11Z) - Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning [22.177866778776814]
本稿では,高レベルプランニングときめ細かいCoT推論の両方を改善するために設計された2段階のフレームワークを提案する。
第1段階では,高度なLCMを用いてCoTを蒸留して高レベル誘導を行い,それを教師付き微調整に用いる。
第2段階では、最終出力と高レベルガイダンスの品質を協調的に最適化するガイダンス対応RL手法を導入する。
論文 参考訳(メタデータ) (2025-10-02T09:28:13Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。