論文の概要: Beyond Offline A/B Testing: Context-Aware Agent Simulation for Recommender System Evaluation
- arxiv url: http://arxiv.org/abs/2604.09549v1
- Date: Mon, 26 Jan 2026 05:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.482318
- Title: Beyond Offline A/B Testing: Context-Aware Agent Simulation for Recommender System Evaluation
- Title(参考訳): オフラインA/Bテストを超えて:リコメンダシステム評価のためのコンテキスト認識エージェントシミュレーション
- Authors: Nicolas Bougie, Gian Maria Marconi, Xiaotong Ye, Narimasa Watanabe,
- Abstract要約: 本研究では,日常の生活活動におけるインタラクションを固定することで,信頼できるユーザプロキシをシミュレートするエージェントフレームワークであるContextSimを紹介する。
嗜好を本物の人間に合わせるため、エージェントの内部思想をモデル化し、行動レベルと軌道レベルの両方で一貫性を強制する。
- 参考スコア(独自算出の注目度): 0.7031557790463293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems are central to online services, enabling users to navigate through massive amounts of content across various domains. However, their evaluation remains challenging due to the disconnect between offline metrics and online performance. The emergence of Large Language Model-powered agents offers a promising solution, yet existing studies model users in isolation, neglecting the contextual factors such as time, location, and needs, which fundamentally shape human decision-making. In this paper, we introduce ContextSim, an LLM agent framework that simulates believable user proxies by anchoring interactions in daily life activities. Namely, a life simulation module generates scenarios specifying when, where, and why users engage with recommendations. To align preferences with genuine humans, we model agents' internal thoughts and enforce consistency at both the action and trajectory levels. Experiments across domains show our method generates interactions more closely aligned with human behavior than prior work. We further validate our approach through offline A/B testing correlation and show that RS parameters optimized using ContextSim yield improved real-world engagement.
- Abstract(参考訳): Recommenderシステムはオンラインサービスの中心であり、ユーザーはさまざまなドメインにわたる大量のコンテンツをナビゲートできる。
しかし、オフラインメトリクスとオンラインパフォーマンスの切り離しのため、彼らの評価は依然として難しい。
大規模言語モデル駆動エージェントの出現は、有望なソリューションを提供するが、既存の研究は、時間、場所、ニーズといったコンテキスト要因を無視し、人間の意思決定を根本的に形作る。
本稿では,日常活動におけるインタラクションを固定することで,ユーザプロキシをシミュレートするLLMエージェントフレームワークであるContextSimを紹介する。
すなわち、ライフシミュレーションモジュールは、ユーザがレコメンデーションにいつ、どこで、なぜかを指定するシナリオを生成する。
嗜好を本物の人間に合わせるため、エージェントの内部思想をモデル化し、行動レベルと軌道レベルの両方で一貫性を強制する。
ドメイン間の実験は、我々の手法が以前の作業よりも人間の行動に密に一致した相互作用を生成することを示している。
さらに、オフラインA/Bテスト相関を用いて、我々のアプローチを検証し、ContextSimを用いて最適化されたRSパラメータが実世界のエンゲージメントを改善したことを示す。
関連論文リスト
- Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing [54.456400601801704]
A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を提案する。
具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、マルチモーダルおよびマルチページインタラクションを実現する。
モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
論文 参考訳(メタデータ) (2026-01-08T03:33:43Z) - AlignUSER: Human-Aligned LLM Agents via World Models for Recommender System Evaluation [0.7031557790463293]
人間のインタラクションから世界モデル駆動エージェントを学習するフレームワークであるAlignを紹介する。
実証に関する反事実的軌跡を生成し, LLMに人間の選択と判断を比較し, 準最適行動を特定し, 教訓を抽出するよう促す。
論文 参考訳(メタデータ) (2026-01-02T03:01:33Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - Automatic Music Playlist Generation via Simulation-based Reinforcement
Learning [17.628525710776877]
プレイリストのパーソナライズは、音楽ストリーミングサービスで一般的な機能である。
シミュレーションされたプレイリスト生成環境を用いて,ユーザの満足度を計測する強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-13T14:13:02Z) - Towards Data-Driven Offline Simulations for Online Reinforcement
Learning [30.654163861164864]
強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-11-14T18:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。