論文の概要: Adversarial Training for Failure-Sensitive User Simulation in Mental Health Dialogue Optimization
- arxiv url: http://arxiv.org/abs/2512.20773v1
- Date: Tue, 23 Dec 2025 21:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.600141
- Title: Adversarial Training for Failure-Sensitive User Simulation in Mental Health Dialogue Optimization
- Title(参考訳): メンタルヘルス対話最適化における障害感性ユーザシミュレーションの逆トレーニング
- Authors: Ziyi Zhu, Olivier Tieleman, Caitlin A. Stamatis, Luka Smyth, Thomas D. Hull, Daniel R. Cahn, Matteo Malgaroli,
- Abstract要約: 効果的なシミュレータの重要な特性は、評価したシステムの障害モードを公開する能力である。
本稿では,ジェネレータ(ユーザシミュレータ)とディスクリミネータの競合ダイナミクスを用いて,ユーザシミュレータリアリズムを改善するための逆トレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.964225730132177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic user simulation is crucial for training and evaluating task-oriented dialogue (TOD) systems, yet creating simulators that accurately replicate human behavior remains challenging. A key property of effective simulators is their ability to expose failure modes of the systems they evaluate. We present an adversarial training framework that iteratively improves user simulator realism through a competitive dynamic between a generator (user simulator) and a discriminator. Applied to mental health support chatbots, our approach demonstrates that fine-tuned simulators dramatically outperform zero-shot base models at surfacing system issues, and adversarial training further enhances diversity, distributional alignment, and predictive validity. The resulting simulator achieves a strong correlation between simulated and real failure occurrence rates across diverse chatbot configurations while maintaining low distributional divergence of failure modes. Discriminator accuracy decreases drastically after three adversarial iterations, suggesting improved realism. These results provide evidence that adversarial training is a promising approach for creating realistic user simulators in mental health support TOD domains, enabling rapid, reliable, and cost-effective system evaluation before deployment.
- Abstract(参考訳): 現実的なユーザシミュレーションは、タスク指向対話(TOD)システムのトレーニングと評価に不可欠であるが、人間の振る舞いを正確に再現するシミュレータを作成することは依然として困難である。
効果的なシミュレータの重要な特性は、評価したシステムの障害モードを公開する能力である。
本稿では,ジェネレータ(ユーザシミュレータ)とディスクリミネータの競合ダイナミクスを用いて,ユーザシミュレータリアリズムを反復的に改善する逆トレーニングフレームワークを提案する。
メンタルヘルス支援チャットボットに応用すると、微調整シミュレータはシステム上の問題に対してゼロショットベースモデルを大幅に上回り、対人訓練は多様性、分布アライメント、予測妥当性をさらに向上させる。
このシミュレータは, 各種チャットボット構成のシミュレーションと実故障発生率の相関を強く保ちながら, 障害モードの分布のばらつきを低く抑える。
判別器の精度は3回の反復で劇的に低下し、リアリズムの改善が示唆された。
これらの結果は、対人訓練が、メンタルヘルス支援TODドメインにおける現実的なユーザシミュレータを作成するための有望なアプローチであり、デプロイ前に、迅速で信頼性があり、費用対効果の高いシステム評価を可能にする証拠となる。
関連論文リスト
- PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies [88.78188489161028]
シミュレーションにおける政策評価と環境復元(PolaRiS)の導入
PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。
PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2025-12-18T18:49:41Z) - LLM-Powered User Simulator for Recommender System [29.328839982869923]
LLMを利用したユーザシミュレータを導入し、アイテムとのユーザエンゲージメントを明示的にシミュレートする。
具体的には、ユーザ嗜好の明示的なロジックを特定し、LCMを活用してアイテムの特性を分析し、ユーザ感情を抽出する。
本稿では,ユーザインタラクションシミュレーションの論理的および統計的洞察を相乗化するアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-12-22T12:00:04Z) - BeSimulator: A Large Language Model Powered Text-based Behavior Simulator [18.318419980796012]
本研究では,BeSimulatorをテキストベースの環境下での動作シミュレーションの試みとして提案する。
BeSimulatorはシナリオを一般化し、長距離複素シミュレーションを実現する。
本実験は, ベースラインに比べ, 挙動シミュレーションにおいて顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-24T08:37:04Z) - Choose Your Simulator Wisely: A Review on Open-source Simulators for
Autonomous Driving [25.320362844415012]
シミュレータで開発されたアルゴリズムの有効性が懸念されている。
本稿では,シミュレータの進化を解析し,その機能と実用性について解説する。
アクセシビリティ、保守状態、品質などの要因を考慮して、選択シミュレータの勧告を提示する。
論文 参考訳(メタデータ) (2023-11-18T12:30:41Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Adversarial learning of neural user simulators for dialogue policy
optimisation [14.257597015289512]
強化学習に基づく対話ポリシーは、通常、ユーザシミュレータとのインタラクションで訓練される。
現在のデータ駆動シミュレータは、対話コーパス内のユーザの振る舞いを正確にモデル化するように訓練されている。
そこで本研究では,現実的なユーザ行動のシミュレートを目的とした,逆学習を用いた代替手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:17:16Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。
敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。
この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文 参考訳(メタデータ) (2021-03-15T07:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。