論文の概要: Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing
- arxiv url: http://arxiv.org/abs/2601.04554v1
- Date: Thu, 08 Jan 2026 03:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.0189
- Title: Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing
- Title(参考訳): A/BテストのためのマルチモーダルユーザエージェントフレームワークRecommenderシステム評価の探索
- Authors: Wenlin Zhang, Xiangyang Li, Qiyuan Ge, Kuicai Dong, Pengyue Jia, Xiaopeng Li, Zijian Zhang, Maolin Wang, Yichao Wang, Huifeng Guo, Ruiming Tang, Xiangyu Zhao,
- Abstract要約: A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を提案する。
具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、マルチモーダルおよびマルチページインタラクションを実現する。
モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
- 参考スコア(独自算出の注目度): 54.456400601801704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recommender systems, online A/B testing is a crucial method for evaluating the performance of different models. However, conducting online A/B testing often presents significant challenges, including substantial economic costs, user experience degradation, and considerable time requirements. With the Large Language Models' powerful capacity, LLM-based agent shows great potential to replace traditional online A/B testing. Nonetheless, current agents fail to simulate the perception process and interaction patterns, due to the lack of real environments and visual perception capability. To address these challenges, we introduce a multi-modal user agent for A/B testing (A/B Agent). Specifically, we construct a recommendation sandbox environment for A/B testing, enabling multimodal and multi-page interactions that align with real user behavior on online platforms. The designed agent leverages multimodal information perception, fine-grained user preferences, and integrates profiles, action memory retrieval, and a fatigue system to simulate complex human decision-making. We validated the potential of the agent as an alternative to traditional A/B testing from three perspectives: model, data, and features. Furthermore, we found that the data generated by A/B Agent can effectively enhance the capabilities of recommendation models. Our code is publicly available at https://github.com/Applied-Machine-Learning-Lab/ABAgent.
- Abstract(参考訳): 推薦システムでは、オンラインA/Bテストは異なるモデルの性能を評価する上で重要な方法である。
しかしながら、オンラインA/Bテストの実行は、相当な経済的コスト、ユーザエクスペリエンスの劣化、相当な時間要件など、重大な課題を呈することが多い。
LLMベースのエージェントは、Large Language Modelsの強力な能力によって、従来のオンラインA/Bテストを置き換える大きな可能性を秘めている。
それでも、現在のエージェントは、実際の環境の欠如と視覚的知覚能力のために、知覚過程と相互作用パターンをシミュレートすることができない。
これらの課題に対処するために、A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を導入する。
具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、オンラインプラットフォーム上での実際のユーザ動作と整合したマルチモーダルおよびマルチページインタラクションを実現する。
設計したエージェントは、マルチモーダル情報認識、きめ細かいユーザ嗜好を活用し、プロファイル、アクションメモリ検索、疲労システムを統合し、複雑な人間の意思決定をシミュレートする。
モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
さらに,A/Bエージェントが生成したデータは,レコメンデーションモデルの性能を効果的に向上させることができることがわかった。
私たちのコードはhttps://github.com/Applied-Machine-Learning-Lab/ABAgent.comで公開されています。
関連論文リスト
- Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - PUB: An LLM-Enhanced Personality-Driven User Behaviour Simulator for Recommender System Evaluation [9.841963696576546]
Personality-driven User Behaviour Simulator (PUB)は、パーソナライズされたユーザの振る舞いをモデル化するために、Big Fiveのパーソナリティ特性を統合している。
PUBは、行動ログ(例えば、評価、レビュー)とアイテムメタデータからユーザーの個性を動的に推論し、その後、実際のデータに対する統計的忠実性を保存するための合成相互作用を生成する。
Amazonレビューデータセットの実験では、PUBが生成したログは実際のユーザの行動と密接に一致し、パーソナリティ特性とレコメンデーション結果の間に有意義な関連性を明らかにする。
論文 参考訳(メタデータ) (2025-06-05T01:57:36Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - A Reinforcement-Learning-Enhanced LLM Framework for Automated A/B Testing in Personalized Marketing [5.250286096386298]
本稿では、LLMと組み合わせた強化学習戦略最適化を用いてA/Bテストの自動化とパーソナライズを行うRL-LLM-ABテストフレームワークを提案する。
このフレームワークは、事前訓練された命令チューニング言語モデルに基づいて構築され、候補コンテンツのA/Bバージョンを生成する。
RL-LLM-ABTestが既存のA/B試験法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:31:07Z) - Beyond Static Testbeds: An Interaction-Centric Agent Simulation Platform for Dynamic Recommender Systems [37.15496324034216]
RecInterは、リコメンダシステムのための新しいエージェントベースのシミュレーションプラットフォームである。
RecInterでは、ユーザーアクション(例えば、レビュー、購入など)をリアルタイムで動的に更新する。
Merchant Agentsは、より現実的で進化したエコシステムを育むことができる。
論文 参考訳(メタデータ) (2025-05-22T09:14:23Z) - AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents [35.8650712223701]
A/Bテストは、ヒトの大規模でライブなトラフィックに依存しているため、依然として制限されている。
本稿では,ユーザインタラクション行動と実際のWebページを自動的にシミュレートする新しいシステムであるAgentA/Bを提案する。
以上の結果から, エージェントA/Bは人間の行動パターンをエミュレートできる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-13T21:10:56Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [50.6382396309597]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。