論文の概要: LASAR: Latent Adaptive Semantic Aligned Reasoning for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2605.10207v1
- Date: Mon, 11 May 2026 08:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.668537
- Title: LASAR: Latent Adaptive Semantic Aligned Reasoning for Generative Recommendation
- Title(参考訳): LASAR: ジェネレーティブレコメンデーションのための潜在適応型セマンティックアライメント推論
- Authors: Yiwen Chen, Fuwei Zhang, Zehao Chen, Deqing Wang, Hehan Li, Peizhi Xu, Hanmeng Liu, Shuanglong Li, Xin Pei, Fuzhen Zhuang, Zhao Zhang,
- Abstract要約: 大規模言語モデル(LLM)において、潜在推論が効果的なパラダイムとして出現した
SFT-then-RLフレームワークであるLASAR(Latent Adaptive Semantic Aligned Reasoning)を提案する。
3つの実世界のデータセットの実験は、LASARがすべてのベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 33.48046116606003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated powerful reasoning capabilities through Chain-of-Thought (CoT) in various tasks, yet the inefficiency of token-by-token generation hinders real-world deployment in latency-sensitive recommender systems. Latent reasoning has emerged as an effective paradigm in LLMs, performing multi-step inference in a continuous hidden-state space to achieve stronger reasoning at lower cost. However, this paradigm remains underexplored in mainstream generative recommendation. Adapting it reveals three unique challenges: (1) the gap between prior-less Semantic ID (SID) symbols and continuous latent reasoning - SIDs lack pre-trained semantics, hindering joint optimization; (2) representation drift due to a lack of reasoning chain supervision; and (3) the suboptimality of applying a globally fixed reasoning depth. To address these, we propose LASAR (Latent Adaptive Semantic Aligned Reasoning), an SFT-then-RL framework. First, we bridge this gap via two-stage training: Stage 1 grounds SID semantics before Stage 2 introduces latent reasoning, ensuring efficient convergence. Second, we mitigate representation drift through explicit CoT semantic alignment. Step-wise bidirectional KL divergence constrains the latent reasoning trajectory using hidden-state anchors extracted from CoT text, while a Policy Head predicts per-sample reasoning depth. Third, during the GRPO-based RL phase, terminal-only KL alignment accommodates variable-length reasoning, and REINFORCE optimizes the Policy Head to dynamically allocate steps. This nearly halves the average latent step count while simultaneously improving recommendation quality. Experiments on three real-world datasets demonstrate that LASAR outperforms all baselines. It adds marginal inference latency and is roughly 20 times faster than generating explicit CoT text.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなタスクにおいてChain-of-Thought(CoT)を通じて強力な推論能力を示しているが、トークン・バイ・トークン生成の非効率性は、遅延に敏感なレコメンデータシステムにおける現実的なデプロイメントを妨げる。
遅延推論はLLMにおいて有効なパラダイムとして現れ、連続的な隠れ状態空間において複数ステップの推論を行い、より低コストでより強力な推論を実現する。
しかし、このパラダイムは依然として主流のジェネレーティブ・レコメンデーションにおいて過小評価されている。
適応化には,(1)先行するセマンティックID(SID)シンボルと連続的な潜伏推論のギャップが,事前訓練された意味論の欠如や共同最適化の障害,(2)推論チェーンの監督の欠如による表現のドリフト,(3)グローバルに固定された推論深度を適用する際の準最適性,という3つの課題がある。
そこで我々は,SFT-then-RLフレームワークであるLASAR(Latent Adaptive Semantic Aligned Reasoning)を提案する。
まず、このギャップを2段階のトレーニングで埋める: ステージ1は、ステージ2の前にSIDセマンティクスを基礎にして、遅延推論を導入し、効率的な収束を確保する。
第2に、明示的なCoTセマンティックアライメントを通じて表現のドリフトを緩和する。
ステップワイド双方向KL分散は、CoTテキストから抽出された隠れ状態アンカーを用いて遅延推論軌道を制約し、ポリシヘッドはサンプルごとの推論深さを予測する。
第3に、GRPOベースのRLフェーズでは、端末のみのKLアライメントが可変長推論に対応し、REINFORCEはポリシーヘッドを最適化してステップを動的に割り当てる。
これは平均的な遅延ステップ数をほぼ半分にし、同時にレコメンデーション品質を改善します。
3つの実世界のデータセットの実験は、LASARがすべてのベースラインを上回っていることを示している。
差分推論のレイテンシが増加し、明示的なCoTテキストを生成するよりも約20倍高速になる。
関連論文リスト
- LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - S$^2$GR: Stepwise Semantic-Guided Reasoning in Latent Space for Generative Recommendation [15.69884243417431]
Generative Recommendation (GR) は、エンドツーエンドジェネレーションのアドバンテージとともに、トランスフォーメーションパラダイムとして登場した。
既存のGR法は主に相互作用シーケンスから直接セマンティックID(SID)を生成することに重点を置いている。
本稿では,潜在空間における段階的意味誘導推論(S$2$GR)を提案する。
論文 参考訳(メタデータ) (2026-01-26T16:40:37Z) - Latent-Space Contrastive Reinforcement Learning for Stable and Efficient LLM Reasoning [16.244366307890832]
textbfDeepLatent Reasoning(DLR)を提案する。
このフレームワークは、試行錯誤コストを、高価なトークンレベルのフルシーケンス生成から連続潜在多様体へシフトさせる。
実験により、DLRはより安定した訓練収束を実現し、より長い水平推論チェーンをサポートし、推論能力の持続的な蓄積を促進することが示されている。
論文 参考訳(メタデータ) (2026-01-24T03:18:22Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。