論文の概要: Factorized Latent Reasoning for LLM-based Recommendation
- arxiv url: http://arxiv.org/abs/2604.26760v1
- Date: Wed, 29 Apr 2026 14:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.446808
- Title: Factorized Latent Reasoning for LLM-based Recommendation
- Title(参考訳): LLMに基づくレコメンデーションのための因子的潜在推論
- Authors: Tianqi Gao, Chengkai Huang, Zihan Wang, Cao Liu, Ke Zeng, Lina Yao,
- Abstract要約: 逐次リコメンデーションのための新しいフレームワークであるFactized Latent Reasoning (FLR)を提案する。
FLRは潜伏推論を複数の非絡み合った選好因子に分解する。
FLRは、頑健さと解釈性を改善しつつ、強いベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 22.89937395617018
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have recently been adopted for recommendation by framing user preference modeling as a language generation problem. However, existing latent reasoning approaches typically represent user intent with a single latent vector, which struggles to capture the inherently multi-faceted nature of user preferences. We propose Factorized Latent Reasoning (FLR), a novel framework for LLM-based sequential recommendation that decomposes latent reasoning into multiple disentangled preference factors. FLR introduces a lightweight multi-factor attention module that iteratively refines a latent thought representation, where each factor attends to distinct aspects of the user's interaction history. To encourage diversity and specialization, we design orthogonality, attention diversity, and sparsity regularization objectives, and dynamically aggregate factor contributions for the final prediction. We further integrate FLR with an efficient reinforcement learning strategy based on group-relative policy optimization, enabling stable alignment directly in the latent reasoning space. Experiments on multiple benchmarks show that FLR consistently outperforms strong baselines while improving robustness and interpretability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、言語生成問題としてユーザ嗜好モデリングをフレーミングすることで推奨に採用されている。
しかし、既存の潜伏推論アプローチは、通常、単一の潜伏ベクトルでユーザ意図を表しており、ユーザ好みの本質的に多面的な性質を捉えるのに苦労している。
LLMに基づくシーケンシャルレコメンデーションのための新しいフレームワークであるFactized Latent Reasoning (FLR)を提案する。
FLRは軽量な多要素アテンションモジュールを導入し、反復的に潜在的思考表現を洗練させ、各要素がユーザのインタラクション履歴の異なる側面に関与する。
多様性と特殊化を促進するために、直交性、注意多様性、空間正規化目標を設計し、最終的な予測のために動的に因子寄与を集約する。
さらに、FLRをグループ相対的ポリシー最適化に基づく効率的な強化学習戦略と統合し、潜在推論空間で直接、安定したアライメントを可能にする。
複数のベンチマークの実験では、FLRは頑健さと解釈可能性を改善しながら、強いベースラインを一貫して上回っている。
関連論文リスト
- Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。
ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-26T06:25:27Z) - ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback [0.0]
ReVEL: 構造化性能フィードバックによるマルチTurn反射型LLM-Huristic Evolutionを提案する。
ReVELの中核は、(i)パフォーマンスに目立ったグループ化と(ii)マルチターンフィードバック駆動リフレクションの2つのメカニズムにある。
本結果は,自動設計の原則的パラダイムとして,構造化グループを用いたマルチターン推論に注目した。
論文 参考訳(メタデータ) (2026-03-05T04:52:11Z) - DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation [20.756497463882763]
逐次レコメンデーションのための統合された「シンク・テン・ディフューズ」フレームワークであるDiffuReasonを提案する。
潜時推論のための多段階思考トークン、中間表現をデノナイズするための拡散ベースの洗練、およびエンドツーエンドのグループ相対ポリシー最適化を統合している。
4つのベンチマークの実験では、DiffuReasonはさまざまなバックボーンアーキテクチャを一貫して改善している。
論文 参考訳(メタデータ) (2026-02-10T12:55:30Z) - Enhancing Language Models for Robust Greenwashing Detection [36.1214446480006]
グリーンウォッシングと曖昧な主張は持続可能性レポートを損なう。
本稿では,相対的学習と順序付けの目的を組み合わせ,潜在空間を構成するパラメータ係数フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T13:46:15Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization [66.82303841930752]
拡散言語モデル (DLMs) は従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢を提供する。
DLMは、特にデノナイジングステップの数が減少するにつれて、LLMよりも遅れている。
本稿では,マルチリワード最適化 (MRO) 手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T13:57:59Z) - Generative Reasoning Recommendation via LLMs [48.45009951684554]
大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)として機能する上で、根本的な課題に直面している。
本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。
本稿では,協調的セマンティックアライメント(Collaborative-Semantic Alignment),Reasoning Curriculum Activation(Reasoning Curriculum Activation),Sparse-Regularized Group Policy Optimization(Sparse-Regularized Group Policy Optimization)の3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
論文 参考訳(メタデータ) (2025-10-23T17:59:31Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。