論文の概要: SimAB: Simulating A/B Tests with Persona-Conditioned AI Agents for Rapid Design Evaluation
- arxiv url: http://arxiv.org/abs/2603.01024v1
- Date: Sun, 01 Mar 2026 10:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.467027
- Title: SimAB: Simulating A/B Tests with Persona-Conditioned AI Agents for Rapid Design Evaluation
- Title(参考訳): SimAB: 迅速な設計評価のためのペルソナ定義AIエージェントによるA/Bテストのシミュレーション
- Authors: Tim Rieder, Marian Schneider, Mario Truss, Vitaly Tsaplin, Alina Rublea, Sinem Dere, Francisco Chicharro Sanz, Tobias Reiss, Mustafa Doga Dogan,
- Abstract要約: 我々は、ペルソナ条件のAIエージェントを用いた高速なプライバシー保護シミュレーションとしてA/Bテストを再構成するシステムであるSimABを提案する。
デザインのスクリーンショットと変換の目標が与えられたら、SimABはユーザーペルソナを生成し、それらを好みを述べ、結果を集約し、合理性を合成するエージェントとしてデプロイする。
- 参考スコア(独自算出の注目度): 3.609531017498719
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A/B testing is a standard method for validating design decisions, yet its reliance on real user traffic limits iteration speed and makes certain experiments impractical. We present SimAB, a system that reframes A/B testing as a fast, privacy-preserving simulation using persona-conditioned AI agents. Given design screenshots and a conversion goal, SimAB generates user personas, deploys them as agents that state their preference, aggregates results, and synthesizes rationales. Through a formative study with experimentation practitioners, we identified scenarios where traffic constraints hinder testing, including low-traffic pages, multi-variant comparisons, micro-optimizations, and privacy-sensitive contexts. Our design emphasizes speed, early feedback, actionable rationales, and audience specification. We evaluate SimAB against 47 historical A/B tests with known outcomes, achieving 67% overall accuracy, increasing to 83% for high-confidence cases. Additional experiments show robustness to naming and positional bias and demonstrate accuracy gains from personas. Practitioner feedback suggests that SimAB supports faster evaluation cycles and rapid screening of designs difficult to assess with traditional A/B tests.
- Abstract(参考訳): A/Bテストは設計決定を検証するための標準的な方法であるが、実際のユーザトラフィックに依存してイテレーションの速度を制限し、特定の実験を非現実的にする。
我々は、ペルソナ条件のAIエージェントを用いた高速でプライバシー保護のシミュレーションとしてA/Bテストを再構成するシステムであるSimABを提案する。
デザインのスクリーンショットと変換の目標が与えられたら、SimABはユーザーペルソナを生成し、それらを好みを述べ、結果を集約し、合理性を合成するエージェントとしてデプロイする。
実験実践者との形式的研究を通じて、低トラフィックページ、多変量比較、マイクロ最適化、プライバシーに敏感なコンテキストなど、交通制約がテストを妨げるシナリオを特定した。
私たちの設計では、スピード、早期フィードバック、アクション可能な合理性、オーディエンス仕様が重視されています。
その結果,SimABは47例の歴史的A/B検査に対して67%の精度で評価され,高信頼症例では83%に増加した。
追加の実験では、命名と位置バイアスに対する堅牢性を示し、ペルソナの精度向上を示す。
実践者からのフィードバックは、SimABがより高速な評価サイクルと、従来のA/Bテストでは評価が難しい設計の迅速なスクリーニングをサポートすることを示唆している。
関連論文リスト
- ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders [48.83868690303791]
このギャップに対処するために設計された、人間とAIの会話の新しいデータセットであるConvApparelを紹介します。
そのユニークなデュアルエージェントデータ収集プロトコル -- "よい" と "悪い" のレコメンデータを使用する -- は、偽物検証を可能にする。
本稿では,統計的アライメント,人間的類似度スコア,および対実的検証を組み合わせた総合的検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T23:00:21Z) - SimGym: Traffic-Grounded Browser Agents for Offline A/B Testing in E-Commerce [8.496158383334]
SimGymは、リアルタイムブラウザで動作するLarge Language Modelエージェントをベースとした、トラフィックグラウンドの合成バイヤーを使用した、オフラインA/Bテストのためのスケーラブルなシステムである。
SimGymは、プロダクションインタラクションデータから、ショップごとのバイヤープロファイルとインテントを抽出する。
我々はSimGymを、共同創業者のコントロールの下で主要なeコマースプラットフォーム上での実際のUI変更による実際の人間的な結果に対して検証する。
論文 参考訳(メタデータ) (2026-02-01T21:23:04Z) - Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing [54.456400601801704]
A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を提案する。
具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、マルチモーダルおよびマルチページインタラクションを実現する。
モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
論文 参考訳(メタデータ) (2026-01-08T03:33:43Z) - Sim4IA-Bench: A User Simulation Benchmark Suite for Next Query and Utterance Prediction [18.30483927706278]
我々は,次のクエリと発話の予測のためのシミュレーションベンチマークであるSim4IA-Benchを提案する。
データセットはCORE検索エンジンから160の現実世界の検索セッションで構成されている。
Sim4IA-Benchは、ユーザシミュレートアプローチを評価し比較するための基盤を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:44:12Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Harnessing the Power of Interleaving and Counterfactual Evaluation for Airbnb Search Ranking [14.97060265751423]
評価は,検索・推薦システムにおけるランキングアルゴリズムの開発において重要な役割を担っている。
オンライン環境は因果推論技術の適用に寄与する。
効果的なA/Bテストでは、ビジネスはユニークな課題に直面します。
論文 参考訳(メタデータ) (2025-08-01T16:28:18Z) - TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。