論文の概要: Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations
- arxiv url: http://arxiv.org/abs/2601.17087v1
- Date: Fri, 23 Jan 2026 08:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.218549
- Title: Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations
- Title(参考訳): シミュレーションにおける損失: LLMシミュレーションユーザーはエージェント評価において人間にとって信頼できないプロキシである
- Authors: Preethi Seshadri, Samuel Cahyawijaya, Ayomide Odumakinde, Sameer Singh, Seraphina Goldfarb-Tarrant,
- Abstract要約: 実店舗におけるエージェント評価において, LLMを模擬したユーザが信頼性の高いプロキシとして機能するかどうかを検討する。
ユーザシミュレーションは堅牢性に欠けており、エージェントの成功率は異なるユーザLLMで最大9ポイントまで変化している。
また,AAVEおよびインド英語話者にとって,シミュレーション利用者は,異なる集団に対する差分効果のあるプロキシであることも見いだした。
- 参考スコア(独自算出の注目度): 25.5024128816604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic benchmarks increasingly rely on LLM-simulated users to scalably evaluate agent performance, yet the robustness, validity, and fairness of this approach remain unexamined. Through a user study with participants across the United States, India, Kenya, and Nigeria, we investigate whether LLM-simulated users serve as reliable proxies for real human users in evaluating agents on τ-Bench retail tasks. We find that user simulation lacks robustness, with agent success rates varying up to 9 percentage points across different user LLMs. Furthermore, evaluations using simulated users exhibit systematic miscalibration, underestimating agent performance on challenging tasks and overestimating it on moderately difficult ones. African American Vernacular English (AAVE) speakers experience consistently worse success rates and calibration errors than Standard American English (SAE) speakers, with disparities compounding significantly with age. We also find simulated users to be a differentially effective proxy for different populations, performing worst for AAVE and Indian English speakers. Additionally, simulated users introduce conversational artifacts and surface different failure patterns than human users. These findings demonstrate that current evaluation practices risk misrepresenting agent capabilities across diverse user populations and may obscure real-world deployment challenges.
- Abstract(参考訳): エージェントベンチマークは、エージェントのパフォーマンスを十分に評価するために、LSMシミュレーションユーザーに依存していることが多いが、このアプローチの堅牢性、妥当性、公正性は未検討のままである。
アメリカ合衆国、インド、ケニア、ナイジェリアの参加者とのユーザスタディを通じて、LOMを模擬したユーザが、τ-Benchの小売業務におけるエージェントの評価において、実際の人間の信頼性の高いプロキシとして機能するかどうかを調査する。
ユーザシミュレーションは堅牢性に欠けており、エージェントの成功率は異なるユーザLLMで最大9ポイントまで変化している。
さらに、シミュレートされたユーザによる評価は、体系的な誤校正、課題に対するエージェント性能の過小評価、適度に難しい課題に対する過大評価を示す。
アフリカ系アメリカ人の英語話者(AAVE)は、標準アメリカ英語話者(SAE)よりも一貫して成功率と校正誤差が悪く、年齢と大きく異なる。
また,AAVEおよびインド英語話者にとって,シミュレーション利用者は,異なる集団に対する差分効果のあるプロキシであることも見いだした。
さらに、シミュレートされたユーザは会話のアーティファクトを導入し、ヒューマンユーザとは異なる障害パターンを表面化する。
これらの結果から,現在の評価手法は,多様なユーザ集団にまたがるエージェント能力の誤表現を危険にさらし,現実の展開課題を曖昧にしている可能性が示唆された。
関連論文リスト
- SimUSER: Simulating User Behavior with Large Language Models for Recommender System Evaluation [1.2430809884830318]
信頼性と費用対効果を両立させるエージェントフレームワークであるSimを紹介した。
Simは、歴史的データから自己一貫性のあるペルソナを識別し、ユニークな背景と個性を持つユーザープロフィールを豊かにする。
我々は,サムネイルがクリック率,露出効果,レビューがユーザエンゲージメントに与える影響を調べる実験を行った。
論文 参考訳(メタデータ) (2025-04-17T07:57:23Z) - ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:57:42Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - CLEVA: Chinese Language Models EVAluation Platform [92.42981537317817]
CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。
当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。
汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。
マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
論文 参考訳(メタデータ) (2023-08-09T09:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。