論文の概要: AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents
- arxiv url: http://arxiv.org/abs/2504.09723v1
- Date: Sun, 13 Apr 2025 21:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:46.231430
- Title: AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents
- Title(参考訳): AgentA/B: 対話型LLMエージェントによる自動化されたスケーラブルなWeb A/Bテスト
- Authors: Dakuo Wang, Ting-Yao Hsu, Yuxuan Lu, Limeng Cui, Yaochen Xie, William Headean, Bingsheng Yao, Akash Veeragouni, Jiapeng Liu, Sreyashi Nag, Jessie Wang,
- Abstract要約: A/Bテストは、ヒトの大規模でライブなトラフィックに依存しているため、依然として制限されている。
本稿では,ユーザインタラクション行動と実際のWebページを自動的にシミュレートする新しいシステムであるAgentA/Bを提案する。
以上の結果から, エージェントA/Bは人間の行動パターンをエミュレートできる可能性が示唆された。
- 参考スコア(独自算出の注目度): 27.670822586397104
- License:
- Abstract: A/B testing experiment is a widely adopted method for evaluating UI/UX design decisions in modern web applications. Yet, traditional A/B testing remains constrained by its dependence on the large-scale and live traffic of human participants, and the long time of waiting for the testing result. Through formative interviews with six experienced industry practitioners, we identified critical bottlenecks in current A/B testing workflows. In response, we present AgentA/B, a novel system that leverages Large Language Model-based autonomous agents (LLM Agents) to automatically simulate user interaction behaviors with real webpages. AgentA/B enables scalable deployment of LLM agents with diverse personas, each capable of navigating the dynamic webpage and interactively executing multi-step interactions like search, clicking, filtering, and purchasing. In a demonstrative controlled experiment, we employ AgentA/B to simulate a between-subject A/B testing with 1,000 LLM agents Amazon.com, and compare agent behaviors with real human shopping behaviors at a scale. Our findings suggest AgentA/B can emulate human-like behavior patterns.
- Abstract(参考訳): A/Bテスト実験は、モダンなWebアプリケーションにおけるUI/UX設計決定を評価するために広く採用されている方法である。
しかし、従来のA/Bテストは、人間の大規模でライブなトラフィックへの依存と、テスト結果を待つ長い時間に制約されている。
6人の経験豊富な業界実践者との形式的なインタビューを通じて、現在のA/Bテストワークフローにおける重要なボトルネックを特定しました。
そこで本研究では,Large Language Model-based autonomous agent(LLM Agents,LLM Agents)を利用して,ユーザインタラクションの振る舞いを実Webページで自動的にシミュレートする新しいシステムであるAgentA/Bを提案する。
AgentA/Bは、多様なペルソナを持つLLMエージェントのスケーラブルなデプロイを可能にし、それぞれが動的Webページをナビゲートし、検索、クリック、フィルタリング、購入などの多段階インタラクションを対話的に実行することができる。
実証的制御実験では,エージェントA/Bを用いて,1000 LLMエージェントによるオブジェクト間A/Bテストのシミュレーションを行い,エージェントの行動と実際のショッピング行動との比較を行った。
以上の結果から, エージェントA/Bは人間の行動パターンをエミュレートできる可能性が示唆された。
関連論文リスト
- LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation [66.52371505566815]
大規模言語モデル(LLM)ベースのAIエージェントは、人間のような知性を達成するために、大きな進歩を遂げた。
LMAgentは,マルチモーダル LLM に基づく大規模かつマルチモーダルなエージェント社会である。
LMAgentでは、友人とチャットする以外に、エージェントは自動で商品を閲覧、購入、レビューしたり、ライブストリーミングのeコマースを行うこともできる。
論文 参考訳(メタデータ) (2024-12-12T12:47:09Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - Aligning Agents like Large Language Models [8.873319874424167]
高次元感覚情報から複雑な3D環境下での行動訓練は困難である。
我々は、模倣学習エージェントの望ましくない振る舞いと、不整合大言語モデル(LLM)の不整合応答の類似性を描く。
トレーニングエージェントにこのアプローチをうまく適用するための洞察とアドバイスを提供しながら、希望するモードを一貫して実行できるようにエージェントを調整できることを実証する。
論文 参考訳(メタデータ) (2024-06-06T16:05:45Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - MUG: Interactive Multimodal Grounding on User Interfaces [12.035123646959669]
本稿では,ユーザとエージェントがインタフェース画面上で協調作業を行うマルチモーダルグラウンドのための対話型タスクMUGを提案する。
ユーザがコマンドを与え、エージェントがコマンドに応答する。MUGはエージェントの応答を見る際に、エージェントがそのアクションを洗練または修正するための追加コマンドを与えるように、複数のラウンドのインタラクションを可能にする。
論文 参考訳(メタデータ) (2022-09-29T21:08:18Z) - Agents for Automated User Experience Testing [4.6453787256723365]
自動UXテストのためのエージェントベースのアプローチを提案する。
我々は,基本問題解決スキルと中核的影響モデルを備えたエージェントを開発した。
この研究はまだ原始的な状態にあるが、この結果が知的エージェントの使用に強く影響していると我々は信じている。
論文 参考訳(メタデータ) (2021-04-13T14:13:28Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。