Fugu-MT 論文翻訳(概要): RealUserSim: Bridging the Reality Gap in Agent Benchmarking via Grounded User Simulation

論文の概要: RealUserSim: Bridging the Reality Gap in Agent Benchmarking via Grounded User Simulation

arxiv url: http://arxiv.org/abs/2605.20204v1
Date: Tue, 07 Apr 2026 19:42:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 12:34:33.970057
Title: RealUserSim: Bridging the Reality Gap in Agent Benchmarking via Grounded User Simulation
Title（参考訳）: RealUserSim: 接地ユーザシミュレーションによるエージェントベンチマークにおける現実的なギャップのブリッジ
Authors: Ming Zhu, Juntao Tan, Rithesh Murthy, Jielin Qiu, Liangwei Yang, Wenting Zhao, Silvio Savarese, Shelby Heinecke, Huan Wang,
Abstract要約: RealUserSimは、実際の行動データに基づく最初のユーザーシミュレーションフレームワークである。 14,000以上の人間とLLMの会話(WildChat)から、7,275の行動プロファイルを抽出する。 71以上のドメインをまたいだ600の会話に対する信頼度ベンチマーク(PT3)は、基底シミュレーションが一致率を24.2%から45.3%に引き上げていることを示している。
参考スコア（独自算出の注目度）: 43.758401022409465
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: LLM-based user simulation is the primary mechanism for end-to-end agent evaluation, yet simulated users are poor proxies for real humans: unconstrained LLM defaults produce a Formalism Ceiling (style match rates of 6-8% against real users), while hand-crafted behavioral directives trigger Directive Amplification, where models hyper-interpret instructions into unnatural behavioral extremes that vary dramatically across simulator models. We present RealUserSim, the first user simulation framework grounded in real behavioral data. From 14,000+ authentic human-LLM conversations (WildChat), we extract 7,275 executable behavioral profiles and use them to ground LLM simulators. A fidelity benchmark (PT3) on 600 conversations across 71+ domains with anti-leakage controls shows that grounded simulation raises match rate from 24.2% to 45.3% across five behavioral dimensions. Agent evaluation on TauBench with 6 simulator models and extensive analysis shows that grounded simulation acts as a realistic stress test, surfacing three failure mechanisms invisible to cooperative simulators (mean -3.2% to -3.5% task success degradation), while Directive Amplification in existing benchmarks produces unrealistic behavior that compromises the validity of agent evaluation.
Abstract（参考訳）: LLMをベースとしたユーザシミュレーションは、エンド・ツー・エンドのエージェント評価の主要なメカニズムであるが、シミュレーションされたユーザは、実際の人間にとって悪いプロキシである: 制約のないLDMのデフォルトは、フォーマリズム・シーリング(通常、実際のユーザに対して6-8%の一致率)を生成する一方で、手作りの行動指示がダイレクト・アンプリフィケーション(Directive Amplification)を起動する。実行動データに基づく最初のユーザシミュレーションフレームワークであるRealUserSimを紹介する。 14,000以上の人間とLLMの会話(WildChat)から7,275個の行動プロファイルを抽出し,LLMシミュレータのグラウンドとして利用する。 71以上のドメインをまたいだ600の会話に対する信頼度ベンチマーク(PT3)では、基底シミュレーションは5つの行動次元で24.2%から45.3%に一致率を高めている。 6つのシミュレーターモデルと広範囲な分析によるTauBenchのエージェント評価は、グラウンドドシミュレーションが現実的なストレステストとして機能し、協調シミュレータに見えない3つの障害機構(平均-3.2%から3.5%のタスク成功劣化)を克服し、既存のベンチマークのディレクティブ増幅はエージェント評価の有効性を損なう非現実的な振る舞いを生み出すことを示している。

関連論文リスト

Task-Aware Automated User Profile Generation for Recommendation Simulation Using Large Language Models [8.706093337738869]
本稿では,推薦シミュレーションのための自動プロファイル生成フレームワーク APG4RecSimを提案する。 APG4RecSimは、最小限の監督で、現実的で、一貫性があり、堅牢なユーザープロファイルを構築する。以上の結果から, APG4RecSimが生成するプロファイルは, 人気や位置によるバイアスに耐性があることが示唆された。
論文参考訳（メタデータ） (2026-05-13T13:20:39Z)
Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors [61.610957638373826]
本研究では,実際のユーザ行動とシミュレーションユーザ行動の分布ギャップを計測する手法を提案する。実会話とシミュレーション会話のデータセットが与えられた場合,本手法は各会話からユーザ行動の表現を抽出する。ほとんどのシミュレータも同様に振る舞うが、いくつかは独立している。
論文参考訳（メタデータ） (2026-05-08T15:09:25Z)
Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation [62.51953630639423]
既存のベンチマークには視覚的リアリズムがなく、シミュレーションと現実の間に大きな領域ギャップが生じる。シミュレーションにおけるロボット操作評価のための,視覚的にリアルなベンチマークであるVISERを提案する。 VISERは、物理ベースのレンダリング(PBR)素材を備えた1000以上の3Dアセットの高忠実度データセットと、それらのアセットから作成される3Dシーンを、レイアウトや生成によって構成する。
論文参考訳（メタデータ） (2026-05-07T14:13:05Z)
DexSim2Real: Foundation Model-Guided Sim-to-Real Transfer for Generalizable Dexterous Manipulation [2.7246995570820354]
DexSim2Realは、デクサラス操作のためのsim-to-realギャップをブリッジする統合フレームワークである。本システムでは,視覚リアリズム批判として視覚言語モデルを用いて,クローズドループCMA-ESによるシミュレーションパラメータの最適化を行うFM-DR,ゼロショットsim-to-real RLへのクロスアテンションビズオ触覚融合を適応するTVCAP,LLMに基づくタスク分解に基づくプログレッシブスキルカリキュラム(PSC)の3つのコンポーネントを組み合わせる。
論文参考訳（メタデータ） (2026-05-03T17:29:29Z)
Mind the Sim2Real Gap in User Simulation for Agentic Tasks [101.69142591891234]
ユーザシミュレーションにおけるSim2Realのギャップを形式化し、実際の人間に対して$$$-benchプロトコルを実行する最初の研究を示す。 LLMシミュレータは過度に協調的であり、スタイリスティックに均一であり、現実的なフラストレーションや曖昧さを欠いている。これらの知見は, LLMベースのユーザシミュレータをエージェント開発サイクルで使用する際の人間による検証の重要性を強調した。
論文参考訳（メタデータ） (2026-03-11T19:12:31Z)
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文参考訳（メタデータ） (2025-10-20T13:14:38Z)
User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文参考訳（メタデータ） (2023-06-05T02:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。