論文の概要: Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing
- arxiv url: http://arxiv.org/abs/2601.04554v1
- Date: Thu, 08 Jan 2026 03:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.0189
- Title: Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing
- Title(参考訳): A/BテストのためのマルチモーダルユーザエージェントフレームワークRecommenderシステム評価の探索
- Authors: Wenlin Zhang, Xiangyang Li, Qiyuan Ge, Kuicai Dong, Pengyue Jia, Xiaopeng Li, Zijian Zhang, Maolin Wang, Yichao Wang, Huifeng Guo, Ruiming Tang, Xiangyu Zhao,
- Abstract要約: A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を提案する。
具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、マルチモーダルおよびマルチページインタラクションを実現する。
モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
- 参考スコア(独自算出の注目度): 54.456400601801704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recommender systems, online A/B testing is a crucial method for evaluating the performance of different models. However, conducting online A/B testing often presents significant challenges, including substantial economic costs, user experience degradation, and considerable time requirements. With the Large Language Models' powerful capacity, LLM-based agent shows great potential to replace traditional online A/B testing. Nonetheless, current agents fail to simulate the perception process and interaction patterns, due to the lack of real environments and visual perception capability. To address these challenges, we introduce a multi-modal user agent for A/B testing (A/B Agent). Specifically, we construct a recommendation sandbox environment for A/B testing, enabling multimodal and multi-page interactions that align with real user behavior on online platforms. The designed agent leverages multimodal information perception, fine-grained user preferences, and integrates profiles, action memory retrieval, and a fatigue system to simulate complex human decision-making. We validated the potential of the agent as an alternative to traditional A/B testing from three perspectives: model, data, and features. Furthermore, we found that the data generated by A/B Agent can effectively enhance the capabilities of recommendation models. Our code is publicly available at https://github.com/Applied-Machine-Learning-Lab/ABAgent.
- Abstract(参考訳): 推薦システムでは、オンラインA/Bテストは異なるモデルの性能を評価する上で重要な方法である。
しかしながら、オンラインA/Bテストの実行は、相当な経済的コスト、ユーザエクスペリエンスの劣化、相当な時間要件など、重大な課題を呈することが多い。
LLMベースのエージェントは、Large Language Modelsの強力な能力によって、従来のオンラインA/Bテストを置き換える大きな可能性を秘めている。
それでも、現在のエージェントは、実際の環境の欠如と視覚的知覚能力のために、知覚過程と相互作用パターンをシミュレートすることができない。
これらの課題に対処するために、A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を導入する。
具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、オンラインプラットフォーム上での実際のユーザ動作と整合したマルチモーダルおよびマルチページインタラクションを実現する。
設計したエージェントは、マルチモーダル情報認識、きめ細かいユーザ嗜好を活用し、プロファイル、アクションメモリ検索、疲労システムを統合し、複雑な人間の意思決定をシミュレートする。
モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
さらに,A/Bエージェントが生成したデータは,レコメンデーションモデルの性能を効果的に向上させることができることがわかった。
私たちのコードはhttps://github.com/Applied-Machine-Learning-Lab/ABAgent.comで公開されています。
関連論文リスト
- AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents [35.8650712223701]
A/Bテストは、ヒトの大規模でライブなトラフィックに依存しているため、依然として制限されている。
本稿では,ユーザインタラクション行動と実際のWebページを自動的にシミュレートする新しいシステムであるAgentA/Bを提案する。
以上の結果から, エージェントA/Bは人間の行動パターンをエミュレートできる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-13T21:10:56Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。