論文の概要: Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation
- arxiv url: http://arxiv.org/abs/2506.05069v2
- Date: Mon, 09 Jun 2025 09:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.148914
- Title: Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation
- Title(参考訳): Reason-to-Recommend:interaction-of-Thought Reasoningを用いたLLM勧告の強化
- Authors: Keyu Zhao, Fengli Xu, Yong Li,
- Abstract要約: $textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
- 参考スコア(独自算出の注目度): 9.282278040339138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by advances in Large Language Models (LLMs), integrating them into recommendation tasks has gained interest due to their strong semantic understanding and prompt flexibility. Prior work encoded user-item interactions or metadata into prompts for recommendations. In parallel, LLM reasoning, boosted by test-time scaling and reinforcement learning, has excelled in fields like mathematics and code, where reasoning traces and correctness signals are clear, enabling high performance and interpretability. However, directly applying these reasoning methods to recommendation is ineffective because user feedback is implicit and lacks reasoning supervision. To address this, we propose $\textbf{R2Rec}$, a reasoning-enhanced recommendation framework that samples interaction chains from the user-item graph and converts them into structured interaction-of-thoughts via a progressive masked prompting strategy, with each thought representing stepwise reasoning grounded in interaction context. This allows LLMs to simulate step-by-step decision-making based on implicit patterns. We design a two-stage training pipeline: supervised fine-tuning teaches basic reasoning from high-quality traces, and reinforcement learning refines reasoning via reward signals, alleviating sparse explicit supervision. Experiments on three real-world datasets show R2Rec outperforms classical and LLM-based baselines with an average $\textbf{10.48%}$ improvement in HitRatio@1 and $\textbf{131.81%}$ gain over the original LLM. Furthermore, the explicit reasoning chains enhance interpretability by revealing the decision process. Our code is available at: https://anonymous.4open.science/r/R2Rec-7C5D.
- Abstract(参考訳): LLM(Large Language Models)の進歩によって、これらをレコメンデーションタスクに統合することが関心を集めている。
以前の作業では、ユーザとイテムのインタラクションやメタデータをレコメンデーションのプロンプトにエンコードしていた。
並行して、LLM推論は、テスト時間スケーリングと強化学習によって強化され、推論のトレースと正しさの信号が明確で、高いパフォーマンスと解釈可能性を実現する数学やコードのような分野で優れている。
しかし、ユーザのフィードバックが暗黙的であり、推論の監督が欠如しているため、これらの推論手法を直接レコメンデーションに適用することは効果がない。
この問題に対処するために、ユーザ-itemグラフからインタラクションチェーンを抽出し、プログレッシブなマスク付きプロンプト戦略によって構造化されたインタラクションチェーンに変換する、推論強化レコメンデーションフレームワークである$\textbf{R2Rec}$を提案する。
これにより、LCMは暗黙のパターンに基づいてステップバイステップの意思決定をシミュレートできる。
我々は2段階の訓練パイプラインを設計し、教師付き微調整は高品質なトレースから基本的な推論を教え、強化学習は報酬信号による推論を洗練し、希少な明示的な監督を緩和する。
3つの実世界のデータセットの実験では、R2Recは古典的およびLLMベースのベースラインを平均$\textbf{10.48%}$ HitRatio@1と$\textbf{131.81%}$で上回る。
さらに、明示的な推論連鎖は、決定過程を明らかにすることにより解釈可能性を高める。
私たちのコードは、https://anonymous.4open.science/r/R2Rec-7C5Dで利用可能です。
関連論文リスト
- Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models [26.401130750061323]
CoT(Chain-of- Thought)は、大規模言語モデル(LLM)の能力を普遍的に改善することが期待される。
テスト時間計算のスケーリングに対する推論をインセンティブ化することで,複雑な命令を扱う上でのLLMを向上する体系的手法であるRAIFを提案する。
より優れたCoT施行のためのサンプルワイドコントラストによる複雑な指示の下での推論の浅く、重要でない性質に対処する。
論文 参考訳(メタデータ) (2025-06-02T08:11:44Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Dual Reasoning: A GNN-LLM Collaborative Framework for Knowledge Graph Question Answering [38.31983923708175]
我々は、知識グラフ(KGs)の明示的推論のために、グラフニューラルネットワーク(GNN)に基づく外部システムを統合する新しいフレームワークであるDual-Reasoningを提案する。
我々は,DualRが高効率と解釈性を維持しつつ,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-06-03T09:38:28Z) - FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering [46.41364317172677]
大規模言語モデル(LLM)は、しばしば誤ったあるいは幻覚的な応答を生成することで挑戦される。
本稿では,知識グラフから得られた検証可能な推論ステップに回答を固定することで,LLM応答の事実性を改善するための統合フレームワークFiDeLiSを提案する。
トレーニング不要のフレームワークである本手法は,性能の向上だけでなく,異なるベンチマークにおける現実性や解釈可能性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-05-22T17:56:53Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。