論文の概要: Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors
- arxiv url: http://arxiv.org/abs/2605.07847v1
- Date: Fri, 08 May 2026 15:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.147271
- Title: Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors
- Title(参考訳): 実行動とシミュレーション行動の間の分布ギャップの測定と緩和
- Authors: Shuhaib Mehri, Philippe Laban, Sumuk Shashidhar, Marwa Abdulhai, Sergey Levine, Michel Galley, Dilek Hakkani-Tür,
- Abstract要約: 本研究では,実際のユーザ行動とシミュレーションユーザ行動の分布ギャップを計測する手法を提案する。
実会話とシミュレーション会話のデータセットが与えられた場合,本手法は各会話からユーザ行動の表現を抽出する。
ほとんどのシミュレータも同様に振る舞うが、いくつかは独立している。
- 参考スコア(独自算出の注目度): 61.610957638373826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As user simulators are increasingly used for interactive training and evaluation of AI assistants, it is essential that they represent the diverse behaviors of real users. While existing works train user simulators to generate human-like responses, whether they capture the broad and heterogeneous distribution of real user behaviors remains an open question. In this work, we introduce a method to measure the distributional gap between real and simulated user behaviors, validated through a human study and ablations. Given a dataset of real and simulated conversations, our method extracts representations of user behavior from each conversation, quantizes them into discrete distributions via clustering, then computes divergence metrics. We provide the first systematic evaluation of 24 LLM-based user simulators on coding and writing tasks, and reveal a large distributional gap from real users that varies across model families, scales, and behavioral facets. Pairwise comparisons show that most simulators behave similarly, while a few stand apart. Combining behaviorally complementary simulators brings the resulting distribution closer to real users compared to either simulator on its own. Finally, a TF-IDF analysis of the clusters surfaces interpretable patterns of behaviors that simulators capture, miss, and hallucinate.
- Abstract(参考訳): ユーザシミュレータは、AIアシスタントのインタラクティブなトレーニングや評価にますます利用されているため、実際のユーザの多様な振る舞いを表現することが不可欠である。
既存の研究は、ユーザーシミュレーターに人間のような反応を起こさせるよう訓練しているが、実際のユーザーの行動の広範で異質な分布を捉えるかどうかは未解決の問題である。
本研究では,実際のユーザ行動とシミュレーションユーザ行動の分布ギャップを測定する手法を提案する。
実会話とシミュレーション会話のデータセットが与えられた場合、本手法は各会話からユーザ行動の表現を抽出し、クラスタリングにより離散分布に定量化し、分散メトリクスを計算する。
LLMベースの24個のユーザシミュレータのコーディングと記述に関する最初の体系的評価を行い、モデルファミリやスケール,行動面などによって異なる実際のユーザ間の大きな分散ギャップを明らかにする。
ペアワイズ比較では、ほとんどのシミュレータも同様に振る舞うが、いくつかは独立している。
振る舞いを補完するシミュレータを組み合わせることで、実際のユーザに近い分布が得られる。
最後に、クラスタのTF-IDF分析は、シミュレーターがキャプチャー、ミス、幻覚を捕捉する動作の解釈可能なパターンを表わす。
関連論文リスト
- Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [81.41397370235102]
我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。
現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。
この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
論文 参考訳(メタデータ) (2026-04-09T15:26:21Z) - Mind the Sim2Real Gap in User Simulation for Agentic Tasks [101.69142591891234]
ユーザシミュレーションにおけるSim2Realのギャップを形式化し、実際の人間に対して$$$-benchプロトコルを実行する最初の研究を示す。
LLMシミュレータは過度に協調的であり、スタイリスティックに均一であり、現実的なフラストレーションや曖昧さを欠いている。
これらの知見は, LLMベースのユーザシミュレータをエージェント開発サイクルで使用する際の人間による検証の重要性を強調した。
論文 参考訳(メタデータ) (2026-03-11T19:12:31Z) - ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders [48.83868690303791]
このギャップに対処するために設計された、人間とAIの会話の新しいデータセットであるConvApparelを紹介します。
そのユニークなデュアルエージェントデータ収集プロトコル -- "よい" と "悪い" のレコメンデータを使用する -- は、偽物検証を可能にする。
本稿では,統計的アライメント,人間的類似度スコア,および対実的検証を組み合わせた総合的検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T23:00:21Z) - HumanLM: Simulating Users with State Alignment Beats Response Imitation [84.89761487596844]
本稿では,実際のユーザを正確に反映したユーザシミュレータを構築する新しいトレーニングフレームワークHumanLMを提案する。
HumanLMは、強化学習を通じて、地道的な応答に一致した自然言語の潜伏状態を生成する。
本研究では,公開データに基づく実ユーザシミュレーションのための総合的なベンチマークであるHumanualを開発する。
論文 参考訳(メタデータ) (2026-02-07T20:26:28Z) - PUB: An LLM-Enhanced Personality-Driven User Behaviour Simulator for Recommender System Evaluation [9.841963696576546]
Personality-driven User Behaviour Simulator (PUB)は、パーソナライズされたユーザの振る舞いをモデル化するために、Big Fiveのパーソナリティ特性を統合している。
PUBは、行動ログ(例えば、評価、レビュー)とアイテムメタデータからユーザーの個性を動的に推論し、その後、実際のデータに対する統計的忠実性を保存するための合成相互作用を生成する。
Amazonレビューデータセットの実験では、PUBが生成したログは実際のユーザの行動と密接に一致し、パーソナリティ特性とレコメンデーション結果の間に有意義な関連性を明らかにする。
論文 参考訳(メタデータ) (2025-06-05T01:57:36Z) - Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。
USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-26T09:26:54Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。