論文の概要: RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation
- arxiv url: http://arxiv.org/abs/2603.09843v1
- Date: Tue, 10 Mar 2026 16:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.44632
- Title: RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation
- Title(参考訳): RecThinker: Recommendationにおけるツール強化推論のためのエージェントフレームワーク
- Authors: Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou,
- Abstract要約: RecThinkerはツール拡張推論を推奨するエージェントフレームワークである。
我々はRecThinker専用のツール群を開発し、モデルがユーザアイテム側および協調的な情報を取得することを可能にする。
- 参考スコア(独自算出の注目度): 63.74915464611075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have revolutionized recommendation agents by providing superior reasoning and flexible decision-making capabilities. However, existing methods mainly follow a passive information acquisition paradigm, where agents either rely on static pre-defined workflows or perform reasoning with constrained information. It limits the agent's ability to identify information sufficiency, often leading to suboptimal recommendations when faced with fragmented user profiles or sparse item metadata. To address these limitations, we propose RecThinker, an agentic framework for tool-augmented reasoning in recommendation, which shifts recommendation from passive processing to autonomous investigation by dynamically planning reasoning paths and proactively acquiring essential information via autonomous tool-use. Specifically, RecThinker adopts an Analyze-Plan-Act paradigm, which first analyzes the sufficiency of user-item information and autonomously invokes tool-calling sequences to bridge information gaps between available knowledge and reasoning requirements. We develop a suite of specialized tools for RecThinker, enabling the model to acquire user-side, item-side, and collaborative information for better reasoning and user-item matching. Furthermore, we introduce a self-augmented training pipeline, comprising a Supervised Fine-Tuning (SFT) stage to internalize high-quality reasoning trajectories and a Reinforcement Learning (RL) stage to optimize for decision accuracy and tool-use efficiency. Extensive experiments on multiple benchmark datasets demonstrate that RecThinker consistently outperforms strong baselines in the recommendation scenario.
- Abstract(参考訳): 大規模言語モデル(LLM)は、優れた推論と柔軟な意思決定能力を提供することによって推奨エージェントに革命をもたらした。
しかし、既存の手法は主に受動的情報取得のパラダイムに従っており、エージェントは静的な事前定義されたワークフローに依存するか、制約のある情報で推論を行う。
エージェントが情報不足を識別する能力を制限するため、多くの場合、断片化されたユーザプロファイルやスパースアイテムメタデータに直面すると、サブ最適のレコメンデーションが発生する。
これらの制約に対処するために,RecThinkerを提案する。RecThinkerはツール強化推論のためのエージェントフレームワークであり,動的に推論経路を計画し,自律ツール利用を通じて本質的な情報を取得することによって,レコメンデーションを受動的処理から自律的な調査に移行する。
具体的には、RecThinkerはAnalyze-Plan-Actパラダイムを採用する。Analyze-Plan-Actパラダイムは、まずユーザイテム情報の満足度を分析し、ツール呼び出しシーケンスを自律的に呼び出して、利用可能な知識と推論要求の間の情報ギャップを埋める。
我々はRecThinker専用のツール群を開発し、モデルがユーザ側、アイテム側、協調的な情報を取得し、推論とユーザイテムマッチングを改善する。
さらに,高品質な推論軌道を内在化するためのSFT(Supervised Fine-Tuning)ステージと,意思決定精度とツール使用効率を最適化する強化学習(Reinforcement Learning, RL)ステージを備えた自己強化型トレーニングパイプラインを導入する。
複数のベンチマークデータセットに対する大規模な実験は、レコメンデーションシナリオにおいて、RecThinkerが強いベースラインを一貫して上回っていることを示している。
関連論文リスト
- RecNet: Self-Evolving Preference Propagation for Agentic Recommender Systems [109.9061591263748]
RecNetは、レコメンデータシステムのための自己進化的な好みの伝達フレームワークである。
関連ユーザやアイテム間で、リアルタイムの好み更新を積極的に伝達する。
逆相では、フィードバック駆動の伝搬最適化機構がマルチエージェント強化学習フレームワークをシミュレートする。
論文 参考訳(メタデータ) (2026-01-29T12:14:31Z) - Think before Recommendation: Autonomous Reasoning-enhanced Recommender [25.883091131835172]
RecZeroは強化学習に基づくレコメンデーションパラダイムであり、従来のマルチモデルおよびマルチステージ蒸留アプローチを捨てている。
本稿では、教師付き微調整とRLを組み合わせたハイブリッドパラダイムRecOneについて検討し、そのモデルにコールドスタート推論サンプルを初期化し、さらにRLに最適化する。
論文 参考訳(メタデータ) (2025-10-27T07:26:32Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究は,LLMの命令追従能力と批判的推論とのバランスを評価するための新しいフレームワークを提案する。
トレーニング後のアライメントモデルでは,無効なオプションの選択がデフォルトとなることが多いが,ベースモデルでは,モデルサイズに合わせてスケールするリファリング機能が改善されている。
さらに、同様の指示追従バイアスを示す並列人間の研究を行い、これらのバイアスがアライメントに使用される人間のフィードバックデータセットを通してどのように伝播するかを示唆した。
論文 参考訳(メタデータ) (2024-08-27T19:27:43Z) - Aligning Explanations for Recommendation with Rating and Feature via Maximizing Mutual Information [29.331050754362803]
現在の説明生成手法は,既存のユーザレビューを模倣する目的で一般的に訓練されている。
MMIフレームワークと呼ばれるフレキシブルなモデルに依存しない手法を提案し、生成した自然言語の説明と予測された評価/重要項目の特徴との整合性を高める。
私たちのMMIフレームワークは、さまざまなバックボーンモデルを強化し、予測された評価やアイテム機能との整合性の観点から、既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-07-18T08:29:55Z) - Uncertainty-Aware Explainable Recommendation with Large Language Models [15.229417987212631]
GPT-2のプロンプトとしてユーザおよびアイテム入力のIDベクトルを利用するモデルを開発する。
マルチタスク学習フレームワークには,推薦タスクと説明タスクの両方を最適化するために,共同トレーニング機構が採用されている。
提案手法はYelp, TripAdvisor, Amazon のデータセット上でそれぞれ 1.59 DIV, 0.57 USR, 0.41 FCR を達成する。
論文 参考訳(メタデータ) (2024-01-31T14:06:26Z) - Time-aware Self-Attention Meets Logic Reasoning in Recommender Systems [0.0]
本稿では,TiSANCRに基づくリコメンデーションモデルを提案する。
TiSANCRは時間的パターンと自己認識機構を推論に基づくレコメンデーションに統合する。
ベンチマークデータセットの実験では、提案されたTiSANCRが大幅な改善を達成し、常に最先端のレコメンデーション手法より優れていることが示されている。
論文 参考訳(メタデータ) (2022-08-29T01:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。