論文の概要: TrackRec: Iterative Alternating Feedback with Chain-of-Thought via Preference Alignment for Recommendation
- arxiv url: http://arxiv.org/abs/2508.15388v1
- Date: Thu, 21 Aug 2025 09:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.261642
- Title: TrackRec: Iterative Alternating Feedback with Chain-of-Thought via Preference Alignment for Recommendation
- Title(参考訳): TrackRec:リコメンデーションのための優先アライメントによる繰り返し交互フィードバック
- Authors: Yu Xia, Rui Zhong, Zeyu Song, Wei Yang, Junchen Wan, Qingpeng Cai, Chi Lu, Peng Jiang,
- Abstract要約: 思考連鎖(CoT)は、レコメンデーションシステム(RS)の複雑な推論タスクにおけるLLMの性能を向上させることが示されている。
RS 用 LLM の推論能力を高めるためのフレームワークである textbfTrackRec を提案する。
TrackRecは、何億人ものユーザーを抱える遅れた広告プラットフォームに展開され、かなりの利益を上げている。
- 参考スコア(独自算出の注目度): 15.49724392835573
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The extensive world knowledge and powerful reasoning capabilities of large language models (LLMs) have attracted significant attention in recommendation systems (RS). Specifically, The chain of thought (CoT) has been shown to improve the performance of LLMs on complex reasoning tasks for RS. However, due to the fact that LLMs often suffer from hallucination issues, there is no guarantee that their reasoning CoT is effective. A key challenge is to further enhance the recommendation capabilities of LLMs through effective CoT reasonings. Therefore, we propose \textbf{TrackRec}, a framework designed to enhance reasoning capabilities of LLMs for RS. TrackRec specifically focuses on accurately inferring recommendation CoT \textbf{(RecCoT)} for user preference using the knowledge from LLMs. This RecCoT can serve both as an explanation for the LLM's completion of recommendation tasks and as auxiliary features to assist recommendation models in accomplishing recommendation tasks. TrackRec consists of a RecCoT generator $(G)$ and a RecCoT validator $(V)$. Furthermore, we design alternating feedback learning mechanism that $G$ undergoes direct preference optimization via feedback from $V$ to produce increasingly accurate RecCoT aligned with $V$'s standards. Meanwhile, $V$ is fine-tuned using the inference feedback from $G$ to enhance its validation capabilities in alignment with recommendation tasks. Through iterative alternating feedback learning between $G$ and $V$, TrackRec continuously improves the user preference analysis capability of $G$ and the validation capacity of $V$. Extensive experiments demonstrate the effectiveness of our approach, showing that it surpasses state-of-the-art methods. Moreover, TrackRec has been deployed on a lagre advertising platform with hundreds of millions of users, achieving substantial gains.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な世界知識と強力な推論能力は、レコメンデーションシステム(RS)において大きな注目を集めている。
特に、思考連鎖(CoT)は、RSの複雑な推論タスクにおけるLLMの性能を向上させることが示されている。
しかし、LLMが幻覚に悩まされることが多いため、CoTの推論が効果的である保証はない。
重要な課題は、効果的なCoT推論を通じてLLMのレコメンデーション機能を強化することである。
そこで本稿では,LSM の推論能力を高めるためのフレームワークである \textbf{TrackRec} を提案する。
TrackRecは特に、LLMの知識を使ってユーザの好みに応じてCoT \textbf{(RecCoT)} を正確に推論することに焦点を当てている。
このRecCoTは、LLMのレコメンデーションタスクの完了の説明と、レコメンデーションタスクを達成するためのレコメンデーションモデルを支援する補助機能の両方として機能する。
TrackRecはRecCoTジェネレータ$(G)$とRecCoTバリデータ$(V)$で構成される。
さらに、より正確なRecCoTを生成するために、$G$からのフィードバックを通じて直接選好最適化を行う交互フィードバック学習機構を設計する。
一方、$V$は$G$からの推論フィードバックを使って微調整され、レコメンデーションタスクに合わせて検証機能を強化する。
TrackRecは、G$と$V$の反復的なフィードバック学習を通じて、G$のユーザ好みの分析能力と$V$のバリデーション能力を継続的に改善する。
大規模な実験により,最先端の手法を超越したアプローチの有効性が示された。
さらに、TrackRecは数億人のユーザーがいる遅れた広告プラットフォームにデプロイされており、かなりの利益を得ている。
関連論文リスト
- RLHF Fine-Tuning of LLMs for Alignment with Implicit User Feedback in Conversational Recommenders [0.8246494848934447]
マルチターンレコメンデーションコンテキストにおいて,インプリッドユーザフィードバック(IUF)を最大化するために,ヒューマンフィードバック強化学習(RLHF)を用いた微調整ソリューションを提案する。
RLHF-fine-tuned モデルでは, (arrow-zero-cmwrquca-teja-falset ensuite 2Round group-deca States penalty と比較して, 推薦精度, コヒーレンス, ユーザ満足度が向上することを示した。
論文 参考訳(メタデータ) (2025-08-07T11:36:55Z) - Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文 参考訳(メタデータ) (2025-06-05T14:16:44Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。
私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。
LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文 参考訳(メタデータ) (2024-10-30T17:02:54Z) - Direct Preference Optimization for LLM-Enhanced Recommendation Systems [33.54698201942643]
大規模言語モデル(LLM)は、幅広い領域で顕著なパフォーマンスを示している。
我々は,DPOをLLM強化レコメンデーションシステムに統合するフレームワークであるDPO4Recを提案する。
大規模な実験により、DPO4Recは強いベースラインよりも性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-10-08T11:42:37Z) - Unlocking the Potential of Large Language Models for Explainable
Recommendations [55.29843710657637]
説明ジェネレータを最近登場した大規模言語モデル(LLM)に置き換える影響は、まだ不明である。
本研究では,シンプルで効果的な2段階説明可能なレコメンデーションフレームワークであるLLMXRecを提案する。
いくつかの重要な微調整技術を採用することで、制御可能で流動的な説明が十分に生成できる。
論文 参考訳(メタデータ) (2023-12-25T09:09:54Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。