論文の概要: AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents
- arxiv url: http://arxiv.org/abs/2603.21613v1
- Date: Mon, 23 Mar 2026 06:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.521866
- Title: AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents
- Title(参考訳): AgenticRec: ランク付け指向のレコメンダエージェントのためのエンドツーエンドツール統合ポリシー最適化
- Authors: Tianyi Li, Zixuan Wang, Guidong Lei, Xiaodong Li, Hui Li,
- Abstract要約: 本稿では、ランキング指向のエージェントレコメンデーションフレームワークであるAgenticRecを紹介する。
根拠に基づく推論をサポートするために、ReActループに統合されたレコメンデーション固有のツール群を設計する。
本稿では,微粒な嗜好の曖昧さを解決するために,プログレッシブな選好リファインメントを導入する。
- 参考スコア(独自算出の注目度): 26.289918893920984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender agents built on Large Language Models offer a promising paradigm for recommendation. However, existing recommender agents typically suffer from a disconnect between intermediate reasoning and final ranking feedback, and are unable to capture fine-grained preferences. To address this, we present AgenticRec, a ranking-oriented agentic recommendation framework that optimizes the entire decision-making trajectory (including intermediate reasoning, tool invocation, and final ranking list generation) under sparse implicit feedback. Our approach makes three key contributions. First, we design a suite of recommendation-specific tools integrated into a ReAct loop to support evidence-grounded reasoning. Second, we propose theoretically unbiased List-Wise Group Relative Policy Optimization (list-wise GRPO) to maximize ranking utility, ensuring accurate credit assignment for complex tool-use trajectories. Third, we introduce Progressive Preference Refinement (PPR) to resolve fine-grained preference ambiguities. By mining hard negatives from ranking violations and applying bidirectional preference alignment, PPR minimizes the convex upper bound of pairwise ranking errors. Experiments on benchmarks confirm that AgenticRec significantly outperforms baselines, validating the necessity of unifying reasoning, tool use, and ranking optimization.
- Abstract(参考訳): 大規模言語モデル上に構築されたレコメンダエージェントは、推奨のための有望なパラダイムを提供する。
しかし、既存のレコメンダエージェントは通常、中間的推論と最終ランクのフィードバックの切り離しに悩まされ、きめ細かい好みを捉えることができない。
これを解決するためにAgenticRecを提案する。AgenticRecは、厳密な暗黙のフィードバックの下で、意思決定の軌道全体(中間的推論、ツール呼び出し、最終ランクリスト生成を含む)を最適化するランキング指向のエージェントレコメンデーションフレームワークである。
私たちのアプローチは3つの重要な貢献をします。
まず、エビデンスに基づく推論をサポートするために、ReActループに統合されたレコメンデーション固有のツール群を設計する。
第2に,理論的に偏りのないリストワイズグループ相対ポリシー最適化(リストワイズGRPO)を提案する。
第3に、細かな好みのあいまいさを解決するためにプログレッシブ・プライス・リファインメント(PPR)を導入する。
PPRは、ランキング違反からハードネガティブをマイニングし、双方向の選好アライメントを適用することにより、ペアのランクエラーの凸上限を最小化する。
ベンチマークの実験では、AgenticRecがベースラインを大幅に上回っており、統一推論、ツール使用、ランキング最適化の必要性を検証している。
関連論文リスト
- ChainRec: An Agentic Recommender Learning to Route Tool Chains for Diverse and Evolving Interests [28.077112874506934]
ChainRecはエージェントレコメンデータで、プランナーを使用して推論ツールを動的に選択する。
AgentRecBenchをAmazon、Yelp、Goodreadsで実験したところ、ChainRecは強力なベースラインよりも一貫してAvg HR@1,3,5を改善している。
論文 参考訳(メタデータ) (2026-02-11T03:50:36Z) - R$^2$ec: Towards Large Recommender Models with Reasoning [59.32598867813266]
R$2$ecは、本質的な推論能力を持つ統一された大型レコメンデータモデルである。
R$2$ecは、推論チェーン生成と効率的なアイテム予測の両方を単一のモデルでサポートするデュアルヘッドアーキテクチャを導入している。
注釈付き推論データの欠如を克服するため、強化学習フレームワークであるRecPOを設計する。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Preference Diffusion for Recommendation [50.8692409346126]
DMベースのレコメンデータに適した最適化対象であるPreferDiffを提案する。
PreferDiffは、BPRをログライクなランキング目標に変換することで、ユーザの好みをよりよく把握する。
これはDMベースのレコメンデーション向けに特別に設計された、パーソナライズされたランキングの損失である。
論文 参考訳(メタデータ) (2024-10-17T01:02:04Z) - Permutative Preference Alignment from Listwise Ranking of Human Judgments [40.23480751285947]
我々はNDCGを異なる代理損失で近似することで、エンドツーエンドのアライメントアルゴリズムを開発する。
我々は,NDCGに基づく手法により,B-T法よりも効率よくランキング精度を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。