論文の概要: RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems
- arxiv url: http://arxiv.org/abs/2605.11874v1
- Date: Tue, 12 May 2026 09:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.775318
- Title: RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems
- Title(参考訳): RecRM-Bench:エージェントレコメンダシステムの多次元リワードモデリングのベンチマーク
- Authors: Wenwen Zeng, Jinhui Zhang, Hao Chen, Zhaoyu Hu, Yongqi Liang, Jiajun Chai, Dengcan Liu, Zhenfeng Liu, Shurui Yan, Minglong Xue, Xiaohan Wang, Wei Lin, Guojun Yin,
- Abstract要約: 本稿では,エージェントレコメンデータシステムにおいて,これまでで最大かつ最も包括的なベンチマークであるRecRM-Benchを紹介する。
4つの中核評価次元にまたがる100万以上の構造化されたエントリで構成されている。命令従順、事実整合性、クエリ-イテム関連性、きめ細かいユーザ行動予測である。
本稿では,多次元報酬モデルの構築とハイブリッド報酬関数の統合のための体系的枠組みを提案する。
- 参考スコア(独自算出の注目度): 40.152754832576996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Model (LLM) agents is transforming recommender systems from simple query-item matching towards deeply personalized and interactive recommendations. Reinforcement Learning (RL) provides an essential framework for the optimization of these agents in recommendation tasks. However, current methodologies remain limited by a reliance on single dimensional outcome-based rewards that focus exclusively on final user interactions, overlooking critical intermediate capabilities, such as instruction following and complex intent understanding. Despite the necessity for designing multi-dimensional reward, the field lacks a standardized benchmark to facilitate this development. To bridge this gap, we introduce RecRM-Bench, the largest and most comprehensive benchmark to date for agentic recommender systems. It comprises over 1 million structured entries across four core evaluation dimensions: instruction following, factual consistency, query-item relevance, and fine-grained user behavior prediction. By supporting comprehensive assessment from syntactic compliance to complex intent grounding and preference modeling, RecRM-Bench provides a foundational dataset for training sophisticated reward models. Furthermore, we propose a systematic framework for the construction of multi-dimensional reward models and the integration of a hybrid reward function, establishing a robust foundation for developing reliable and highly capable agentic recommender systems. The complete RecRM-Bench dataset is publicly available at https://huggingface.co/datasets/wwzeng/RecRM-Bench.
- Abstract(参考訳): LLM(Large Language Model)エージェントの統合により、リコメンダシステムは、単純なクエリ項目マッチングから、深くパーソナライズされ対話的なレコメンデーションへと変換される。
強化学習(RL)は、推奨タスクにおけるこれらのエージェントの最適化に不可欠なフレームワークを提供する。
しかし、現在の手法は、指示の追従や複雑な意図理解といった重要な中間的能力を見越して、最終的なユーザインタラクションのみに焦点を絞った、単一次元の成果に基づく報酬に頼ることによって制限されている。
多次元の報酬を設計する必要性にもかかわらず、この分野にはこの開発を促進するための標準ベンチマークが欠けている。
このギャップを埋めるために、エージェントレコメンデータシステムにおいて、これまでで最大かつ最も包括的なベンチマークであるRecRM-Benchを紹介します。
4つの中核評価次元にまたがる100万以上の構造化されたエントリで構成されている。命令従順、事実整合性、クエリ-イテム関連性、きめ細かいユーザ行動予測である。
RecRM-Benchは、統語的コンプライアンスから複雑な意図の基盤と嗜好モデリングへの包括的アセスメントをサポートすることで、洗練された報酬モデルをトレーニングするための基礎的なデータセットを提供する。
さらに,多次元報酬モデルの構築とハイブリッド報酬関数の統合のための体系的枠組みを提案する。
完全なRecRM-Benchデータセットはhttps://huggingface.co/datasets/wwzeng/RecRM-Benchで公開されている。
関連論文リスト
- Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。
我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。
より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文 参考訳(メタデータ) (2026-02-17T15:31:32Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning [13.30869366778628]
CRMは単一のブラックボックス報酬モデルを置き換えるフレームワークであり、専門家評価者の調整されたチームに置き換えられている。
トレーニングとアセスメントをサポートするために、CRMの協調的な構造に沿ったベンチマークとトレーニングスイートである rewardBenchを紹介します。
論文 参考訳(メタデータ) (2025-11-20T10:12:34Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - AgentRecBench: Benchmarking LLM Agent-based Personalized Recommender Systems [17.329692234349768]
エージェントレコメンデータシステムはLarge Language Models (LLM)を利用している
LLMの高度な推論とロールプレイング能力は、自律的で適応的な意思決定を可能にする。
この分野では、これらの手法を評価するための標準化された評価プロトコルが欠けている。
論文 参考訳(メタデータ) (2025-05-26T07:45:11Z) - LLM4Rerank: LLM-based Auto-Reranking Framework for Recommendations [51.76373105981212]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。
そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。
カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文 参考訳(メタデータ) (2024-06-18T09:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。