論文の概要: Generative Reasoning Recommendation via LLMs
- arxiv url: http://arxiv.org/abs/2510.20815v1
- Date: Thu, 23 Oct 2025 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.545939
- Title: Generative Reasoning Recommendation via LLMs
- Title(参考訳): LLMによる生成的推論勧告
- Authors: Minjie Hong, Zetong Zhou, Zirun Guo, Ziang Zhang, Ruofan Hu, Weinan Gan, Jieming Zhu, Zhou Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)として機能する上で、根本的な課題に直面している。
本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。
本稿では,協調的セマンティックアライメント(Collaborative-Semantic Alignment),Reasoning Curriculum Activation(Reasoning Curriculum Activation),Sparse-Regularized Group Policy Optimization(Sparse-Regularized Group Policy Optimization)の3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
- 参考スコア(独自算出の注目度): 48.45009951684554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their remarkable reasoning capabilities across diverse domains, large language models (LLMs) face fundamental challenges in natively functioning as generative reasoning recommendation models (GRRMs), where the intrinsic modeling gap between textual semantics and collaborative filtering signals, combined with the sparsity and stochasticity of user feedback, presents significant obstacles. This work explores how to build GRRMs by adapting pre-trained LLMs, which achieves a unified understanding-reasoning-prediction manner for recommendation tasks. We propose GREAM, an end-to-end framework that integrates three components: (i) Collaborative-Semantic Alignment, which fuses heterogeneous textual evidence to construct semantically consistent, discrete item indices and auxiliary alignment tasks that ground linguistic representations in interaction semantics; (ii) Reasoning Curriculum Activation, which builds a synthetic dataset with explicit Chain-of-Thought supervision and a curriculum that progresses through behavioral evidence extraction, latent preference modeling, intent inference, recommendation formulation, and denoised sequence rewriting; and (iii) Sparse-Regularized Group Policy Optimization (SRPO), which stabilizes post-training via Residual-Sensitive Verifiable Reward and Bonus-Calibrated Group Advantage Estimation, enabling end-to-end optimization under verifiable signals despite sparse successes. GREAM natively supports two complementary inference modes: Direct Sequence Recommendation for high-throughput, low-latency deployment, and Sequential Reasoning Recommendation that first emits an interpretable reasoning chain for causal transparency. Experiments on three datasets demonstrate consistent gains over strong baselines, providing a practical path toward verifiable-RL-driven LLM recommenders.
- Abstract(参考訳): 多様なドメインにわたる顕著な推論能力にもかかわらず、大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)としてネイティブに機能する上で根本的な課題に直面している。
本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。
3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
一 相互作用意味論において言語表現の基礎となる意味的整合性のある個別項目指標及び補助的アライメントタスクを構築するために異種テキスト証拠を融合させる協力的セマンティックアライメント
二 明示的結束監督を伴う合成データセットを作成し、行動証拠抽出、潜伏選好モデリング、意図推論、勧告定式化及び復号化シーケンス書き換えを行うカリキュラムを作成すること。
3 スパース・レギュラライズド・グループ・ポリシー・オフィケーション(SRPO)は、残効性検証リワードとボナス・キャリブレーションド・グループ・アドバンテージ推定による後トレーニングを安定化し、スパース成功にもかかわらず、検証可能な信号の下でエンドツーエンドの最適化を可能にする。
GREAMは2つの補完的推論モードをネイティブにサポートしている: 高スループット、低レイテンシデプロイメントのためのダイレクトシーケンスレコメンデーション、そして最初に因果的透明性のための解釈可能な推論チェーンを出力するシークエンシャル推論レコメンデーション。
3つのデータセットの実験は、強いベースラインよりも一貫した利得を示し、検証可能なRL駆動LLMレコメンデータへの実践的な道を提供する。
関連論文リスト
- CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Towards Comprehensible Recommendation with Large Language Model Fine-tuning [41.218487308635126]
本稿では,コラボレーティブ・パースペクティブ・フレームワーク(CURec)によるレコメンデーションシステムのための新しいコンテンツ理解手法を提案する。
Curecは、より包括的なレコメンデーションのために、協調的なコンテンツ機能を生成する。
公開ベンチマークの実験では、既存の方法よりもCURecの方が優れていることが示されている。
論文 参考訳(メタデータ) (2025-08-11T03:55:31Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - SRA-CL: Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation [23.050104678143935]
SRA-CL(Semantic Retrieval Augmented Contrastive Learning)という新しい手法を提案する。
SRA-CLはLLMのセマンティック理解と推論機能を活用し、ユーザの好みやアイテムの特徴をキャプチャする表現的な埋め込みを生成する。
SRA-CLはプラグイン・アンド・プレイの設計を採用しており、既存のシーケンシャルレコメンデーションアーキテクチャとシームレスに統合できる。
論文 参考訳(メタデータ) (2025-03-06T07:25:19Z) - EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration [60.47645731801866]
大規模言語モデル(LLM)は、高度なレコメンデータシステムの基本バックボーンとしてますます活用されている。
LLMは事前訓練された言語意味論であるが、llm-Backboneを通してゼロから協調意味論を学ぶ。
内因性行動情報と内因性行動情報とを非侵襲的に統合するデコーダのみの生成推薦フレームワークであるEAGER-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:01:57Z) - Semantic Convergence: Harmonizing Recommender Systems via Two-Stage Alignment and Behavioral Semantic Tokenization [10.47505806629852]
大規模言語モデル(LLM)は、歴史的行動からユーザの深い関心を識別する能力を持っている。
従来のレコメンデーションモデルとLLMの長所を調和的に融合する新しいフレームワークを提案する。
我々は、協調的な信号と自然言語意味論の微妙さを整合させることを目的とした、教師付き学習タスクのシリーズを設計する。
論文 参考訳(メタデータ) (2024-12-18T12:07:58Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。