Fugu-MT 論文翻訳(概要): Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

論文の概要: Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

arxiv url: http://arxiv.org/abs/2601.17087v2
Date: Wed, 28 Jan 2026 00:01:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-29 13:43:09.168969
Title: Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations
Title（参考訳）: シミュレーションにおける損失: LLMシミュレーションユーザーはエージェント評価において人間にとって信頼できないプロキシである
Authors: Preethi Seshadri, Samuel Cahyawijaya, Ayomide Odumakinde, Sameer Singh, Seraphina Goldfarb-Tarrant,
Abstract要約: 実店舗におけるエージェント評価において, LLMを模擬したユーザが信頼性の高いプロキシとして機能するかどうかを検討する。ユーザシミュレーションは堅牢性に欠けており、エージェントの成功率は異なるユーザLLMで最大9ポイントまで変化している。また,AAVEおよびインド英語話者にとって,シミュレーション利用者は,異なる集団に対する差分効果のあるプロキシであることも見いだした。
参考スコア（独自算出の注目度）: 25.5024128816604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic benchmarks increasingly rely on LLM-simulated users to scalably evaluate agent performance, yet the robustness, validity, and fairness of this approach remain unexamined. Through a user study with participants across the United States, India, Kenya, and Nigeria, we investigate whether LLM-simulated users serve as reliable proxies for real human users in evaluating agents on τ-Bench retail tasks. We find that user simulation lacks robustness, with agent success rates varying up to 9 percentage points across different user LLMs. Furthermore, evaluations using simulated users exhibit systematic miscalibration, underestimating agent performance on challenging tasks and overestimating it on moderately difficult ones. African American Vernacular English (AAVE) speakers experience consistently worse success rates and calibration errors than Standard American English (SAE) speakers, with disparities compounding significantly with age. We also find simulated users to be a differentially effective proxy for different populations, performing worst for AAVE and Indian English speakers. Additionally, simulated users introduce conversational artifacts and surface different failure patterns than human users. These findings demonstrate that current evaluation practices risk misrepresenting agent capabilities across diverse user populations and may obscure real-world deployment challenges.
Abstract（参考訳）: エージェントベンチマークは、エージェントのパフォーマンスを十分に評価するために、LSMシミュレーションユーザーに依存していることが多いが、このアプローチの堅牢性、妥当性、公正性は未検討のままである。アメリカ合衆国、インド、ケニア、ナイジェリアの参加者とのユーザスタディを通じて、LOMを模擬したユーザが、τ-Benchの小売業務におけるエージェントの評価において、実際の人間の信頼性の高いプロキシとして機能するかどうかを調査する。ユーザシミュレーションは堅牢性に欠けており、エージェントの成功率は異なるユーザLLMで最大9ポイントまで変化している。さらに、シミュレートされたユーザによる評価は、体系的な誤校正、課題に対するエージェント性能の過小評価、適度に難しい課題に対する過大評価を示す。アフリカ系アメリカ人の英語話者(AAVE)は、標準アメリカ英語話者(SAE)よりも一貫して成功率と校正誤差が悪く、年齢と大きく異なる。また,AAVEおよびインド英語話者にとって,シミュレーション利用者は,異なる集団に対する差分効果のあるプロキシであることも見いだした。さらに、シミュレートされたユーザは会話のアーティファクトを導入し、ヒューマンユーザとは異なる障害パターンを表面化する。これらの結果から,現在の評価手法は,多様なユーザ集団にまたがるエージェント能力の誤表現を危険にさらし,現実の展開課題を曖昧にしている可能性が示唆された。

関連論文リスト

LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations [63.478832978278014]
大規模言語モデル(LLM)は、自律的なエージェントとしてますますデプロイされているが、評価は主に文化的適切性や評価者の信頼性よりもタスクの成功に焦点を当てている。シミュレーション町において, LLMをエージェントとして組み込んだマルチカルチャー動的ベンチマークであるLiveCultureBenchを紹介する。
論文参考訳（メタデータ） (2026-03-02T15:04:16Z)
Assessing the Reliability of Persona-Conditioned LLMs as Synthetic Survey Respondents [0.4277616907160855]
我々は、ペルソナ条件のシミュレーションの影響を評価するために、米国のマイクロデータの大規模なデータセットを使用します。その結果,ペルソナ・プロンプトはサーベイアライメントにおいて明確な総合的改善を得られず,多くの場合,性能が著しく低下することがわかった。本研究は,現在のペルソナ・シミュレーション・プラクティスの重大な影響を浮き彫りにするものである。
論文参考訳（メタデータ） (2026-02-06T15:13:59Z)
What Persona Are We Missing? Identifying Unknown Relevant Personas for Faithful User Simulation [16.797868883640255]
既存のユーザシミュレーションでは、モデルが対話でユーザライクな応答を生成するが、十分なユーザペルソナが提供されるという検証が欠如していることが多い。本研究は,特定のシミュレーションコンテキストに対して,シミュレーション対象の関連性はあるが未知の人物を特定するタスクについて検討する。 PICQは,未知のペルソナを付加した,文脈認識型選択質問の新しいデータセットである。
論文参考訳（メタデータ） (2026-01-03T16:22:00Z)
Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
SimUSER: Simulating User Behavior with Large Language Models for Recommender System Evaluation [1.2430809884830318]
信頼性と費用対効果を両立させるエージェントフレームワークであるSimを紹介した。 Simは、歴史的データから自己一貫性のあるペルソナを識別し、ユニークな背景と個性を持つユーザープロフィールを豊かにする。我々は,サムネイルがクリック率,露出効果,レビューがユーザエンゲージメントに与える影響を調べる実験を行った。
論文参考訳（メタデータ） (2025-04-17T07:57:23Z)
Should you use LLMs to simulate opinions? Quality checks for early-stage deliberation [5.4260854377259315]
そこで我々は,LLMを模擬したQuality Controlアセスメントを提案する。この評価は2つの重要なテストから成っている。どのモデルやメソッドも完全な評価をパスせず、いくつかの障害モードを明らかにします。
論文参考訳（メタデータ） (2025-04-11T20:16:02Z)
Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文参考訳（メタデータ） (2024-10-30T17:35:44Z)
ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文参考訳（メタデータ） (2024-05-23T02:57:42Z)
How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。 SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文参考訳（メタデータ） (2023-12-28T16:51:11Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
CLEVA: Chinese Language Models EVAluation Platform [92.42981537317817]
CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
論文参考訳（メタデータ） (2023-08-09T09:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。