論文の概要: STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning
- arxiv url: http://arxiv.org/abs/2508.18812v1
- Date: Tue, 26 Aug 2025 08:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.761492
- Title: STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning
- Title(参考訳): STARec: 自律的自由度推論によるレコメンダシステムのための効率的なエージェントフレームワーク
- Authors: Chenghao Wu, Ruiyang Ren, Junjie Zhang, Ruirui Wang, Zhongrui Ma, Qi Ye, Wayne Xin Zhao,
- Abstract要約: 我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 54.28691219536054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While modern recommender systems are instrumental in navigating information abundance, they remain fundamentally limited by static user modeling and reactive decision-making paradigms. Current large language model (LLM)-based agents inherit these shortcomings through their overreliance on heuristic pattern matching, yielding recommendations prone to shallow correlation bias, limited causal inference, and brittleness in sparse-data scenarios. We introduce STARec, a slow-thinking augmented agent framework that endows recommender systems with autonomous deliberative reasoning capabilities. Each user is modeled as an agent with parallel cognitions: fast response for immediate interactions and slow reasoning that performs chain-of-thought rationales. To cultivate intrinsic slow thinking, we develop anchored reinforcement training - a two-stage paradigm combining structured knowledge distillation from advanced reasoning models with preference-aligned reward shaping. This hybrid approach scaffolds agents in acquiring foundational capabilities (preference summarization, rationale generation) while enabling dynamic policy adaptation through simulated feedback loops. Experiments on MovieLens 1M and Amazon CDs benchmarks demonstrate that STARec achieves substantial performance gains compared with state-of-the-art baselines, despite using only 0.4% of the full training data.
- Abstract(参考訳): 現代のレコメンデータシステムは情報量のナビゲートに役立っているが、静的なユーザモデリングとリアクティブな意思決定パラダイムによって基本的に制限されている。
現在の大言語モデル(LLM)ベースのエージェントは、ヒューリスティックなパターンマッチングへの過度な依存を通じてこれらの欠点を継承し、浅い相関バイアス、限られた因果推論、スパースデータシナリオにおける脆さによるレコメンデーションをもたらす。
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
各ユーザは、即時相互作用に対する迅速な応答と、チェーン・オブ・シークレットな合理性を実行する遅い推論という、並列認知を持つエージェントとしてモデル化される。
本研究は, 先進的推論モデルからの構造化知識蒸留と, 嗜好整合型報酬形成を併用した2段階のモデルである, 係留型強化訓練を開発する。
このハイブリッドアプローチは、シミュレーションされたフィードバックループによる動的ポリシー適応を可能とし、基礎的能力(参照要約、合理的生成)の獲得に役立てる。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecはトレーニングデータの0.4%しか使用していないにも関わらず、最先端のベースラインと比較して大幅にパフォーマンスが向上していることが示された。
関連論文リスト
- From Clicks to Preference: A Multi-stage Alignment Framework for Generative Query Suggestion in Conversational System [11.373145953200137]
生成ポリシーとユーザ意図のプログレッシブアライメントを目的とした多段階フレームワークを提案する。
我々の枠組みは, 自動評価と人的評価の両方において, ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-08-15T10:17:01Z) - RAAG: Ratio Aware Adaptive Guidance [7.2455669888408085]
非条件予測に対する相対的強度(RATIO)の急激な上昇により,初期の逆ステップは誘導尺度に非常に敏感であることが示唆された。
進化するRATIOに基づいて,誘導尺度を早期段階において自動的に減衰させる,シンプルな,理論的に基礎付けられた適応型ガイダンススケジュールを提案する。
我々のアプローチは、生成品質、堅牢性、セマンティックアライメントを維持したり改善したりしながら、最大3倍のサンプリングを可能にします。
論文 参考訳(メタデータ) (2025-08-05T13:41:05Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Data-Scarce Identification of Game Dynamics via Sum-of-Squares Optimization [29.568222003322344]
マルチプレイヤーの正規形式ゲームにおけるゲームダイナミクスを識別するためのサイドインフォーム支援回帰(SIAR)フレームワークを提案する。
SIARは、SOS(sum-of-squares)最適化を用いて解決され、その結果、システムの真の力学に確実に収束する近似の階層となる。
SIARフレームワークは,未知のシステムがカオスであっても,通常のゲーム,広く知られているゲームダイナミクスのファミリー,強力なベンチマークの範囲で,プレーヤの挙動を正確に予測する。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。