論文の概要: SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?
- arxiv url: http://arxiv.org/abs/2510.05444v1
- Date: Mon, 06 Oct 2025 23:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.021472
- Title: SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?
- Title(参考訳): SimulatorArena: ユーザシミュレータはAIアシスタントのマルチTurn評価のための信頼性の高いプロキシか?
- Authors: Yao Dou, Michel Galley, Baolin Peng, Chris Kedzie, Weixin Cai, Alan Ritter, Chris Quirk, Wei Xu, Jianfeng Gao,
- Abstract要約: 大規模言語モデル(LLM)は、対話型アプリケーションでますます使われている。
人間の評価は、マルチターン会話におけるパフォーマンスを評価するためのゴールドスタンダードのままである。
我々は、909の注釈付き人間とLLMの会話を2つの対話タスクで行うベンチマークであるSimulatorArenaを紹介した。
- 参考スコア(独自算出の注目度): 61.07963107032645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in interactive applications, and human evaluation remains the gold standard for assessing their performance in multi-turn conversations. Since human studies are costly, time-consuming, and hard to reproduce, recent work explores using LLMs to simulate users for automatic assistant evaluation. However, there is no benchmark or systematic study to evaluate whether these simulated users are reliable stand-ins for real users. To address this, we introduce SimulatorArena, a benchmark of 909 annotated human-LLM conversations on two interactive tasks -- math tutoring and document creation. SimulatorArena evaluates simulators based on how closely their messages match human behavior and how well their assistant ratings align with human judgments. Experiments on various simulator methods show that simulators conditioned on user profiles, capturing traits like background and message styles, align closely with human judgments. They reach Spearman's $\rho$ of 0.7 on both tasks, providing a practical, scalable alternative to human evaluation. Using the best simulator for each task, we benchmark 18 assistants, including the latest LLMs such as GPT-5, Claude 4.1 Opus, and Gemini 2.5 Pro.
- Abstract(参考訳): 対話型アプリケーションでは大規模言語モデル(LLM)がますます使われており、人間による評価はマルチターン会話におけるパフォーマンスを評価するためのゴールドスタンダードのままである。
人間の研究は費用がかかり、時間がかかり、再現が難しいため、最近の研究はLLMを用いてユーザーをシミュレートし、自動アシスタント評価を行う。
しかし、これらのシミュレーションされたユーザが実際のユーザにとって信頼できるスタンドインであるかどうかを評価するためのベンチマークや体系的な研究は行われていない。
これを解決するために、SimulatorArenaを紹介します。これは、数学のチュータリングと文書作成という2つの対話的なタスクに関する、909の注釈付き人間とLLMの会話のベンチマークです。
SimulatorArenaは、そのメッセージが人間の行動にどの程度近いか、そしてアシスタントの格付けが人間の判断とどのように一致しているかに基づいて、シミュレータを評価する。
様々なシミュレーター手法の実験では、ユーザプロファイルに条件付けされたシミュレータが、背景やメッセージスタイルなどの特性をキャプチャし、人間の判断と密接に一致していることが示されている。
彼らは両方のタスクでSpearmanの$\rho$ 0.7に達し、人間の評価に代わる実用的でスケーラブルな代替手段を提供する。
GPT-5、Claude 4.1 Opus、Gemini 2.5 Proといった最新のLLMを含む18のアシスタントをベンチマークする。
関連論文リスト
- ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders [48.83868690303791]
このギャップに対処するために設計された、人間とAIの会話の新しいデータセットであるConvApparelを紹介します。
そのユニークなデュアルエージェントデータ収集プロトコル -- "よい" と "悪い" のレコメンデータを使用する -- は、偽物検証を可能にする。
本稿では,統計的アライメント,人間的類似度スコア,および対実的検証を組み合わせた総合的検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T23:00:21Z) - Flipping the Dialogue: Training and Evaluating User Language Models [31.119620506835677]
汎用ユーザ言語モデル(ユーザLM)を紹介する。
ユーザLMは、マルチターン会話で人間のユーザをシミュレートする、ポストトレーニング後のモデルである。
ユーザLMが人間の行動とどのように一致しているかを示し、既存のシミュレーション手法よりも優れたシミュレーションロバスト性を実現する。
論文 参考訳(メタデータ) (2025-10-08T01:04:36Z) - YuLan-OneSim: Towards the Next Generation of Social Simulator with Large Language Models [50.35333054932747]
本稿では,YuLan-OneSimというソーシャルシミュレータを紹介する。
ユーザは、シミュレータとの自然言語インタラクションを通じて、シミュレーションシナリオを記述し、洗練することができます。
我々は、経済学、社会学、政治、心理学、組織、人口統計学、法律、コミュニケーションを含む8つの領域にまたがる50のデフォルトシミュレーションシナリオを実装した。
論文 参考訳(メタデータ) (2025-05-12T14:05:17Z) - Can LLMs Simulate Personas with Reversed Performance? A Benchmark for Counterfactual Instruction Following [12.145213376813155]
大規模言語モデル(LLM)は、仮想環境におけるペルソナのシミュレートに広く使われている。
現状のLLMでさえ、逆性能のペルソナをシミュレートできないことを示す。
論文 参考訳(メタデータ) (2025-04-08T22:00:32Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z) - HandoverSim: A Simulation Framework and Benchmark for Human-to-Robot
Object Handovers [60.45158007016316]
HandoverSimは、人間からロボットへのオブジェクトハンドオーバのシミュレーションベンチマークである。
我々は、物体の手でのつかみの最近のモーションキャプチャーデータセットを活用する。
標準化されたプロトコルとメトリクスを使って受信機のトレーニングと評価環境を作成します。
論文 参考訳(メタデータ) (2022-05-19T17:59:00Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。