論文の概要: Quantifying the Utility of User Simulators for Building Collaborative LLM Assistants
- arxiv url: http://arxiv.org/abs/2605.09808v1
- Date: Sun, 10 May 2026 23:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.428371
- Title: Quantifying the Utility of User Simulators for Building Collaborative LLM Assistants
- Title(参考訳): 協調型LLMアシスタント構築のためのユーザシミュレータの有用性の定量化
- Authors: Joseph Suh, Ayush Raj, Minwoo Kang, Serina Chang,
- Abstract要約: 下流ユーティリティの観点からシミュレータの品質を定量化する方法を示す。
我々は、シミュレータのスペクトルに対して強化学習によってLLMアシスタントを訓練する。
評価として,283名を対象にしたユーザスタディにおいて,ペアワイズ勝利率を測定した。
- 参考スコア(独自算出の注目度): 7.523995265564992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User simulators are increasingly leveraged to build interactive AI assistants, yet how to measure the quality of these simulators remains an open question. In this work, we show how simulator quality can be quantified in terms of its downstream utility: how an LLM assistant trained with this user simulator performs in the wild when interacting with real humans. In a controlled experiment where only the user simulator varies, we train LLM assistants via reinforcement learning against a spectrum of simulators, from an LLM prompted to role-play a user to one fine-tuned on human utterances from WildChat. As evaluation, we measure pairwise win rates in a user study with 283 participants and on WildBench, a benchmark derived from real human--AI conversations. Training against the role-playing LLM yields an assistant statistically indistinguishable from the initial assistant in our user study (51% win rate), whereas training against the fine-tuned simulator yields significant gains (58% over the initial and 57% over the one trained against role-playing). Closer inspection reveals three further patterns: methods for making role-playing LLMs more realistic (e.g., persona conditioning) improve trained assistants but do not close the gap to the fine-tuned simulator; scaling the simulator's model size benefits the fine-tuned simulator but yields no gain for role-playing ones; and assistants trained against role-playing simulators fail to generalize when paired with other simulators at test time, while the one trained against fine-tuned simulator does. Together, these results argue for grounding user simulators in real human behavior and measuring their quality by their downstream effect on real users.
- Abstract(参考訳): ユーザーシミュレータは、インタラクティブなAIアシスタントを構築するためにますます活用されている。
本研究は,本シミュレータでトレーニングしたLLMアシスタントが,実人間と対話する際の動作の仕方について,下流のユーティリティの観点からシミュレータ品質を定量化する方法を示す。
ユーザシミュレータのみが異なる制御実験では、ユーザをロールプレイするLLMから、WildChatからの人間の発話を微調整するLLMまで、複数のシミュレータに対して強化学習によってLLMアシスタントを訓練する。
評価として,283人の被験者と実際の人間-AI会話から得られたベンチマークであるWildBenchを用いて,一対当たりの勝利率を測定した。
ロールプレイング LLM に対するトレーニングは,ユーザ調査において初期アシスタントと統計的に区別できない(51%の勝利率)が,微調整シミュレータによるトレーニングでは,ロールプレイングに対するトレーニングでは58%,ロールプレイングに対するトレーニングでは57%)。
より綿密な検査により、ロールプレイング LLM をより現実的にする方法(例えば、ペルソナ条件付け)は、訓練されたアシスタントを改善するが、微調整されたシミュレータとのギャップを埋めない、シミュレータのモデルサイズを拡大することは、微調整されたシミュレータに利益をもたらすが、ロールプレイングシミュレータに利益をもたらすことはない、ロールプレイングシミュレータに対して訓練されたアシスタントは、テスト時に他のシミュレータとペアになっても一般化できない、という3つのパターンが明らかになった。
これらの結果は,実際の人間行動におけるユーザシミュレータの接地と,実際のユーザに対する下流効果による品質評価の両立を主張する。
関連論文リスト
- Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors [61.610957638373826]
本研究では,実際のユーザ行動とシミュレーションユーザ行動の分布ギャップを計測する手法を提案する。
実会話とシミュレーション会話のデータセットが与えられた場合,本手法は各会話からユーザ行動の表現を抽出する。
ほとんどのシミュレータも同様に振る舞うが、いくつかは独立している。
論文 参考訳(メタデータ) (2026-05-08T15:09:25Z) - Mind the Sim2Real Gap in User Simulation for Agentic Tasks [101.69142591891234]
ユーザシミュレーションにおけるSim2Realのギャップを形式化し、実際の人間に対して$$$-benchプロトコルを実行する最初の研究を示す。
LLMシミュレータは過度に協調的であり、スタイリスティックに均一であり、現実的なフラストレーションや曖昧さを欠いている。
これらの知見は, LLMベースのユーザシミュレータをエージェント開発サイクルで使用する際の人間による検証の重要性を強調した。
論文 参考訳(メタデータ) (2026-03-11T19:12:31Z) - HumanLM: Simulating Users with State Alignment Beats Response Imitation [84.89761487596844]
本稿では,実際のユーザを正確に反映したユーザシミュレータを構築する新しいトレーニングフレームワークHumanLMを提案する。
HumanLMは、強化学習を通じて、地道的な応答に一致した自然言語の潜伏状態を生成する。
本研究では,公開データに基づく実ユーザシミュレーションのための総合的なベンチマークであるHumanualを開発する。
論文 参考訳(メタデータ) (2026-02-07T20:26:28Z) - Flipping the Dialogue: Training and Evaluating User Language Models [31.119620506835677]
汎用ユーザ言語モデル(ユーザLM)を紹介する。
ユーザLMは、マルチターン会話で人間のユーザをシミュレートする、ポストトレーニング後のモデルである。
ユーザLMが人間の行動とどのように一致しているかを示し、既存のシミュレーション手法よりも優れたシミュレーションロバスト性を実現する。
論文 参考訳(メタデータ) (2025-10-08T01:04:36Z) - SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants? [61.07963107032645]
大規模言語モデル(LLM)は、対話型アプリケーションでますます使われている。
人間の評価は、マルチターン会話におけるパフォーマンスを評価するためのゴールドスタンダードのままである。
我々は、909の注釈付き人間とLLMの会話を2つの対話タスクで行うベンチマークであるSimulatorArenaを紹介した。
論文 参考訳(メタデータ) (2025-10-06T23:17:44Z) - KAUCUS: Knowledge Augmented User Simulators for Training Language Model
Assistants [3.724713116252253]
有用な対話データを生成するシミュレータを作成することにより、効果的な指示追従アシスタントを開発することができる。
以前のユーザシミュレータは一般的に多様性に欠けており、ほとんどはクローズドドメインであり、厳密なスキーマを必要としていた。
本稿では,知識強化型ユーザシミュレータフレームワークであるKaucusを紹介し,多様なユーザシミュレータ作成プロセスの概要について述べる。
論文 参考訳(メタデータ) (2024-01-29T06:57:02Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。