論文の概要: Controllable User Simulation
- arxiv url: http://arxiv.org/abs/2605.11519v1
- Date: Tue, 12 May 2026 04:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.582039
- Title: Controllable User Simulation
- Title(参考訳): 制御可能なユーザシミュレーション
- Authors: Guy Tennenholtz, Ofer Meshi, Amir Globerson, Uri Shalit, Jihwan Jeong, Craig Boutilier,
- Abstract要約: この研究は、因果推論問題として制御可能なシミュレーションを定式化する。
本研究では, 教師付き微調整による訓練シミュレータの標準的な実践が, 構造的に偏りのあるモデルをもたらすことを示す。
本稿では,事前制御,ステップワイズ動的制御,方針条件付き直接学習など,実践的なトレーニング緩和を提案する。
- 参考スコア(独自算出の注目度): 41.65602738642653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using offline datasets to evaluate conversational agents often fails to cover rare scenarios or to support testing new policies. This has motivated the use of controllable user simulators for targeted, counterfactual evaluation, typically implemented by prompting or fine-tuning large language models. In this work, we formalize controllable simulation as a causal inference problem. By bridging natural language evaluation with off-policy evaluation methodology, we show that the standard practice of training simulators via supervised fine-tuning on post-hoc trajectory labels yields a structurally biased model. Specifically, these labels are inextricably coupled to the data-generating behavior policy, injecting a look-ahead bias that breaks causal consistency. Furthermore, we prove that under policy shift this failure causes the variance of evaluation metrics to explode geometrically, a phenomenon we term controllability collapse. To restore causal consistency, we establish theoretical conditions for accurate simulation and propose practical training mitigations: a priori controls, step-wise dynamic controls, and direct policy-conditioned learning. Empirical evaluation confirms that while standard global controls distort conversational distributions and collapse behavioral diversity, our causally grounded simulators eliminate look-ahead bias, preserve natural variance, and exhibit robust zero-shot generalization to unseen agent behaviors.
- Abstract(参考訳): 会話エージェントを評価するためにオフラインデータセットを使用することは、まれなシナリオをカバーすることや、新しいポリシのテストをサポートするために失敗することが多い。
これにより、制御可能なユーザシミュレータをターゲットとして、対実的評価に利用し、大きな言語モデルにプロンプトや微調整を施すことが典型的である。
本研究では,制御可能なシミュレーションを因果推論問題として定式化する。
自然言語評価を非政治的評価手法でブリッジすることで,ポストホックトラジェクトリラベルの教師付き微調整によるシミュレータの訓練の標準的な実践が,構造的にバイアスのあるモデルをもたらすことを示す。
具体的には、これらのラベルはデータ生成行動ポリシーと密結合しており、因果一貫性を損なうルックアヘッドバイアスを注入する。
さらに, 政策シフトの下では, 評価指標のばらつきが幾何的に爆発する現象を, 制御可能性崩壊と呼ぶ現象であることを示す。
因果一貫性を回復するため、我々は正確なシミュレーションのための理論的条件を確立し、事前制御、ステップワイズ動的制御、直接ポリシー条件付き学習といった実践的な訓練緩和を提案する。
実験的な評価では、標準的なグローバルコントロールは会話の分散を歪ませたり、行動の多様性を崩壊させるが、因果的基底を持つシミュレーターは、ルックアヘッドバイアスを排除し、自然の分散を保ち、目に見えないエージェントの振る舞いに頑健なゼロショットの一般化を示す。
関連論文リスト
- Do LLM-Driven Agents Exhibit Engagement Mechanisms? Controlled Tests of Information Load, Descriptive Norms, and Popularity Cues [28.621781661498545]
テストケースとしてソーシャルメディア上での情報エンゲージメントを用いて,LCMによるシミュレーションが確実にサポートできることを評価する。
Weiboのような環境では、情報負荷や記述規範を操作しつつ、人気度を内在的に進化させる。
これらの制御された変動の下では、単に可塑性トレースを生成するのではなく、理論的に解釈可能な方法でシミュレートされた振る舞いが変化するかどうかを問う。
論文 参考訳(メタデータ) (2026-03-21T18:50:22Z) - Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation [54.29523408543184]
シミュレーションと意思決定の学習は、現実世界の展開を危険にさらすことなく、デジタル環境で安全なポリシートレーニングを可能にする。
既存のアプローチでは、平均的なシミュレーションの忠実さを改善するか、保守的な正規化を採用するかに重点を置いている。
提案するSim2Actは,シミュレータとポリシーのロバスト性の両方に対処するロバストなシミュレーション・トゥ・意思決定フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T00:51:47Z) - Drift-Bench: Diagnosing Cooperative Breakdowns in LLM Agents under Input Faults via Multi-Turn Interaction [20.610305266852638]
textbfDrift-Benchは、入力故障下でエージェントの実用性を評価する最初の診断ベンチマークである。
方法ブリッジは、安全でない実行に繋がる障害の体系的な診断を可能にする、明確化研究とエージェントの安全性評価を橋渡しする。
論文 参考訳(メタデータ) (2026-02-02T18:46:16Z) - Causal Imitation Learning Under Measurement Error and Distribution Shift [6.038778620145853]
ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。
本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:06:53Z) - Active Inference with Reusable State-Dependent Value Profiles [0.0]
生成モデルにおける隠れ状態に割り当てられた値関連パラメータの小さな再利用可能なバンドル。
この枠組みを確率論的逆転学習において評価し,静的精度,エントロピー結合動的精度,プロファイルベースモデルを比較した。
論文 参考訳(メタデータ) (2025-12-03T04:11:57Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。