論文の概要: LLM Agent Meets Agentic AI: Can LLM Agents Simulate Customers to Evaluate Agentic-AI-based Shopping Assistants?
- arxiv url: http://arxiv.org/abs/2509.21501v1
- Date: Thu, 25 Sep 2025 19:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.966006
- Title: LLM Agent Meets Agentic AI: Can LLM Agents Simulate Customers to Evaluate Agentic-AI-based Shopping Assistants?
- Title(参考訳): LLMエージェントとエージェントAI: LLMエージェントは、エージェントAIベースのショッピングアシスタントを評価するために顧客をシミュレートできるか?
- Authors: Lu Sun, Shihan Fu, Bingsheng Yao, Yuxuan Lu, Wenbo Li, Hansu Gu, Jiri Gesi, Jing Huang, Chen Luo, Dakuo Wang,
- Abstract要約: この研究は、LLMエージェントがエージェントAIシステムと人間のマルチターンインタラクションをどのようにミラーできるかを定量化した最初のものである。
私たちは、Amazon Rufusで買い物をする40人の参加者を募集し、ペルソナ、インタラクショントレース、UXフィードバックを収集し、タスクを繰り返すためにデジタルツインを作成しました。
- 参考スコア(独自算出の注目度): 35.749132254600106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI is emerging, capable of executing tasks through natural language, such as Copilot for coding or Amazon Rufus for shopping. Evaluating these systems is challenging, as their rapid evolution outpaces traditional human evaluation. Researchers have proposed LLM Agents to simulate participants as digital twins, but it remains unclear to what extent a digital twin can represent a specific customer in multi-turn interaction with an agentic AI system. In this paper, we recruited 40 human participants to shop with Amazon Rufus, collected their personas, interaction traces, and UX feedback, and then created digital twins to repeat the task. Pairwise comparison of human and digital-twin traces shows that while agents often explored more diverse choices, their action patterns aligned with humans and yielded similar design feedback. This study is the first to quantify how closely LLM agents can mirror human multi-turn interaction with an agentic AI system, highlighting their potential for scalable evaluation.
- Abstract(参考訳): Agentic AIは登場し、コーディング用のCopilotやショッピング用のAmazon Rufusなど、自然言語でタスクを実行することができる。
これらのシステムの評価は、その急速な進化が従来の人間の評価を上回っているため、難しい。
LLM Agentsは、参加者をデジタルツインとしてシミュレートするために提案されているが、エージェントAIシステムとのマルチターンインタラクションにおいて、デジタルツインが特定の顧客をどの程度表現できるかは不明だ。
本稿では,Amazon Rufusで買い物をする40人の参加者を募集し,そのペルソナ,インタラクショントレース,UXフィードバックを収集し,そのタスクを繰り返すディジタルツインを作成した。
人間とデジタルツイントレースのペアワイズ比較は、エージェントがより多様な選択を探索する一方で、そのアクションパターンが人間と一致し、同様の設計フィードバックを得たことを示している。
この研究は、LLMエージェントがエージェントAIシステムと人間のマルチターンインタラクションをどのようにミラーするかを定量化し、スケーラブルな評価の可能性を強調した最初のものである。
関連論文リスト
- Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction [1.6574413179773757]
大規模言語モデル(LLM)は、自然言語コマンドを解釈するために、その膨大な理解を活用できなければならない。
しかし、これらのモデルは幻覚に悩まされ、安全上の問題やタスクからの逸脱を引き起こす可能性がある。
本研究では、一つの独立したAIエージェントに対して複数のコラボレーティブAIシステムがテストされ、他のドメインの成功が人間とロボットのインタラクション性能の改善につながるかどうかを判定した。
論文 参考訳(メタデータ) (2024-11-23T02:47:12Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Exploring Autonomous Agents through the Lens of Large Language Models: A Review [0.0]
大規模言語モデル(LLM)は人工知能を変革し、自律エージェントがさまざまなドメインで多様なタスクを実行できるようにしている。
彼らは多目的性、人的価値のアライメント、幻覚、評価といった課題に直面している。
AgentBench、WebArena、ToolLLMといった評価プラットフォームは、複雑なシナリオでこれらのエージェントを評価する堅牢な方法を提供します。
論文 参考訳(メタデータ) (2024-04-05T22:59:02Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Exploring the Intersection of Large Language Models and Agent-Based
Modeling via Prompt Engineering [0.0]
大きな言語モデル(LLM)がこのボトルネックの潜在的な解決策として現れている。
本稿では,人間行動の予測可能なプロキシのシミュレーションを2つ提示する。
論文 参考訳(メタデータ) (2023-08-14T18:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。