論文の概要: SAGER: Self-Evolving User Policy Skills for Recommendation Agent
- arxiv url: http://arxiv.org/abs/2604.14972v1
- Date: Thu, 16 Apr 2026 13:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.907439
- Title: SAGER: Self-Evolving User Policy Skills for Recommendation Agent
- Title(参考訳): SAGER: 推奨エージェントのための自己進化型ユーザポリシースキル
- Authors: Zhen Tao, Riwei Lai, Chenyun Yu, Weixin Chen, Li Chen, Beibei Kong, Lei Cheng, Chengxiang Zhuo, Zang Li, Qingqiang Sun,
- Abstract要約: 大規模言語モデル(LLM)ベースのレコメンデーションエージェントは、ユーザごとのセマンティックメモリの進化を通じて知っていることをパーソナライズする。
本稿では,SAGERを提案する。SAGERは,ユーザが専用のポリシースキルを身に付けるための,最初のレコメンデーションエージェントフレームワークである。
4つの公開ベンチマークの実験では、SAGERが最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 18.821028533463824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) based recommendation agents personalize what they know through evolving per-user semantic memory, yet how they reason remains a universal, static system prompt shared identically across all users. This asymmetry is a fundamental bottleneck: when a recommendation fails, the agent updates its memory of user preferences but never interrogates the decision logic that produced the failure, leaving its reasoning process structurally unchanged regardless of how many mistakes it accumulates. To address this bottleneck, we propose SAGER (Self-Evolving Agent for Personalized Recommendation), the first recommendation agent framework in which each user is equipped with a dedicated policy skill, a structured natural-language document encoding personalized decision principles that evolves continuously through interaction. SAGER introduces a two-representation skill architecture that decouples a rich evolution substrate from a minimal inference-time injection, an incremental contrastive chain-of-thought engine that diagnoses reasoning flaws by contrasting accepted against unchosen items while preserving accumulated priors, and skill-augmented listwise reasoning that creates fine-grained decision boundaries where the evolved skill provides genuine discriminative value. Experiments on four public benchmarks demonstrate that SAGER achieves state-of-the-art performance, with gains orthogonal to memory accumulation, confirming that personalizing the reasoning process itself is a qualitatively distinct source of recommendation improvement.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースの推奨エージェントは、ユーザごとのセマンティックメモリの進化を通じて知っていることをパーソナライズする。
この非対称性は基本的なボトルネックであり、レコメンデーションが失敗すると、エージェントはユーザーの好みのメモリを更新するが、失敗を生んだ決定ロジックを疑うことはない。
このボトルネックに対処するため、我々はSAGER(Self-Evolving Agent for Personalized Recommendation)を提案する。これは、各ユーザが専用のポリシースキルを備えた、対話を通じて継続的に進化するパーソナライズされた決定原則を符号化した構造化された自然言語文書である。
SAGERは、最小の推論時間インジェクションからリッチな進化基板を分離する2つの表現スキルアーキテクチャ、累積前の蓄積を保ちながらアンチョセンアイテムと対比することで推論欠陥を診断するインクリメンタル・コントラスト・チェーン・オブ・プリートエンジン、そして進化したスキルが真の差別価値を提供するようなきめ細かい決定境界を生成するスキル強化されたリストワイズ推論を導入する。
4つの公開ベンチマーク実験により、SAGERはメモリ蓄積に直交する正統性を持つ最先端のパフォーマンスを達成し、推論プロセス自体をパーソナライズすることが推奨改善の質的に異なる情報源であることを確認した。
関連論文リスト
- SpecSteer: Synergizing Local Context and Global Reasoning for Efficient Personalized Generation [79.75755802397312]
SpecSteerは非対称な協調推論フレームワークで、デバイス上のプライベートコンテキストとクラウドスケールの推論を相乗化する。
実験により、SpecSteerは推論のギャップを埋め、パーソナライズされた生成性能を向上することを示した。
論文 参考訳(メタデータ) (2026-03-17T07:51:29Z) - RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation [63.74915464611075]
RecThinkerはツール拡張推論を推奨するエージェントフレームワークである。
我々はRecThinker専用のツール群を開発し、モデルがユーザアイテム側および協調的な情報を取得することを可能にする。
論文 参考訳(メタデータ) (2026-03-10T16:07:17Z) - Learning Personalized Agents from Human Feedback [36.47803872623135]
連続的なパーソナライズのための枠組みであるPAHF(Personalized Agents from Human Feedback)を紹介する。
PAHFは、ユーザ毎の明示的なメモリを使用して、ライブインタラクションからオンラインで学習する。
ベンチマークは、エージェントが最初の好みをスクラッチから学習し、その後ペルソナシフトに適応する能力を定量化する。
論文 参考訳(メタデータ) (2026-02-18T04:18:47Z) - Personalized Federated Recommendation With Knowledge Guidance [18.117610268256005]
FedRKG(Federated Recommendation with Knowledge Guidance)を提案する。
FedRKGはグローバルな知識を保存されたローカルな埋め込みに融合させ、シングル知識メモリフットプリント内の二重知識のパーソナライゼーションのメリットを得る。
ベンチマークデータセットの実験では、FedRKGが最先端の手法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2025-11-17T04:35:53Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - Interactive Recommendation Agent with Active User Commands [35.77744269746443]
本稿では、主流の推薦フィード内で自然言語コマンドを可能にする先駆的なパラダイムであるInteractive Recommendation Feed(IRF)を紹介する。
ユーザが暗黙的な行動の影響を受動的に抑制する従来のシステムとは異なり、IRFはリアルタイム言語コマンドを通じて推奨ポリシーを積極的に制御する。
RecBotは、ユーザ満足度とビジネス成果の両方において、大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-25T15:38:27Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Style Normalization and Restitution for Generalizable Person
Re-identification [89.482638433932]
我々は、ソースドメイン上でモデルをトレーニングするが、ターゲットドメイン上での一般化や性能をよく行うことのできる、一般化可能な人物ReIDフレームワークを設計する。
本稿では,シンプルで効果的なスタイル正規化・再構成(SNR)モジュールを提案する。
SNRモジュールによって強化された我々のモデルは、複数の広く使われているReIDベンチマークにおいて最先端のドメイン一般化アプローチよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-05-22T07:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。