論文の概要: Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation
- arxiv url: http://arxiv.org/abs/2506.05069v2
- Date: Mon, 09 Jun 2025 09:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.148914
- Title: Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation
- Title(参考訳): Reason-to-Recommend:interaction-of-Thought Reasoningを用いたLLM勧告の強化
- Authors: Keyu Zhao, Fengli Xu, Yong Li,
- Abstract要約: $textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
- 参考スコア(独自算出の注目度): 9.282278040339138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by advances in Large Language Models (LLMs), integrating them into recommendation tasks has gained interest due to their strong semantic understanding and prompt flexibility. Prior work encoded user-item interactions or metadata into prompts for recommendations. In parallel, LLM reasoning, boosted by test-time scaling and reinforcement learning, has excelled in fields like mathematics and code, where reasoning traces and correctness signals are clear, enabling high performance and interpretability. However, directly applying these reasoning methods to recommendation is ineffective because user feedback is implicit and lacks reasoning supervision. To address this, we propose $\textbf{R2Rec}$, a reasoning-enhanced recommendation framework that samples interaction chains from the user-item graph and converts them into structured interaction-of-thoughts via a progressive masked prompting strategy, with each thought representing stepwise reasoning grounded in interaction context. This allows LLMs to simulate step-by-step decision-making based on implicit patterns. We design a two-stage training pipeline: supervised fine-tuning teaches basic reasoning from high-quality traces, and reinforcement learning refines reasoning via reward signals, alleviating sparse explicit supervision. Experiments on three real-world datasets show R2Rec outperforms classical and LLM-based baselines with an average $\textbf{10.48%}$ improvement in HitRatio@1 and $\textbf{131.81%}$ gain over the original LLM. Furthermore, the explicit reasoning chains enhance interpretability by revealing the decision process. Our code is available at: https://anonymous.4open.science/r/R2Rec-7C5D.
- Abstract(参考訳): LLM(Large Language Models)の進歩によって、これらをレコメンデーションタスクに統合することが関心を集めている。
以前の作業では、ユーザとイテムのインタラクションやメタデータをレコメンデーションのプロンプトにエンコードしていた。
並行して、LLM推論は、テスト時間スケーリングと強化学習によって強化され、推論のトレースと正しさの信号が明確で、高いパフォーマンスと解釈可能性を実現する数学やコードのような分野で優れている。
しかし、ユーザのフィードバックが暗黙的であり、推論の監督が欠如しているため、これらの推論手法を直接レコメンデーションに適用することは効果がない。
この問題に対処するために、ユーザ-itemグラフからインタラクションチェーンを抽出し、プログレッシブなマスク付きプロンプト戦略によって構造化されたインタラクションチェーンに変換する、推論強化レコメンデーションフレームワークである$\textbf{R2Rec}$を提案する。
これにより、LCMは暗黙のパターンに基づいてステップバイステップの意思決定をシミュレートできる。
我々は2段階の訓練パイプラインを設計し、教師付き微調整は高品質なトレースから基本的な推論を教え、強化学習は報酬信号による推論を洗練し、希少な明示的な監督を緩和する。
3つの実世界のデータセットの実験では、R2Recは古典的およびLLMベースのベースラインを平均$\textbf{10.48%}$ HitRatio@1と$\textbf{131.81%}$で上回る。
さらに、明示的な推論連鎖は、決定過程を明らかにすることにより解釈可能性を高める。
私たちのコードは、https://anonymous.4open.science/r/R2Rec-7C5Dで利用可能です。
関連論文リスト
- Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering [46.41364317172677]
大規模言語モデル(LLM)は、しばしば誤ったあるいは幻覚的な応答を生成することで挑戦される。
本稿では,知識グラフから得られた検証可能な推論ステップに回答を固定することで,LLM応答の事実性を改善するための統合フレームワークFiDeLiSを提案する。
トレーニング不要のフレームワークである本手法は,性能の向上だけでなく,異なるベンチマークにおける現実性や解釈可能性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-05-22T17:56:53Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。