論文の概要: Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems
- arxiv url: http://arxiv.org/abs/2204.00763v2
- Date: Tue, 5 Apr 2022 04:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 11:52:17.795535
- Title: Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems
- Title(参考訳): タスク指向対話システム評価のためのメタフォリカルユーザシミュレータ
- Authors: Weiwei Sun and Shuyu Guo and Shuo Zhang and Pengjie Ren and Zhumin
Chen and Maarten de Rijke and Zhaochun Ren
- Abstract要約: タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドTDS評価のための比喩的ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 78.69495524844385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented dialogue systems (TDSs) are assessed mainly in an offline
setting or through human evaluation. The evaluation is often limited to
single-turn or very time-intensive. As an alternative, user simulators that
mimic user behavior allow us to consider a broad set of user goals to generate
human-like conversations for simulated evaluation. Employing existing user
simulators to evaluate TDSs is challenging as user simulators are primarily
designed to optimize dialogue policies for TDSs and have limited evaluation
capability. Moreover, the evaluation of user simulators is an open challenge.
In this work, we proposes a metaphorical user simulator for endto-end TDS
evaluation. We also propose a tester-based evaluation framework to generate
variants, i.e., dialogue systems with different capabilities. Our user
simulator constructs a metaphorical user model that assists the simulator in
reasoning by referring to prior knowledge when encountering new items. We
estimate the quality of simulators by checking the simulated interactions
between simulators and variants. Our experiments are conducted using three TDS
datasets. The metaphorical user simulator demonstrates better consistency with
manual evaluation than Agenda-based simulator and Seq2seq model on three
datasets; our tester framework demonstrates efficiency, and our approach
demonstrates better generalization and scalability.
- Abstract(参考訳): タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
評価は、しばしばシングルターンまたは非常に時間集中に制限される。
代替として、ユーザ動作を模倣するユーザシミュレータにより、幅広いユーザ目標を考慮し、シミュレーションされた評価のための人間的な会話を生成することができる。
TDSの対話ポリシーを最適化し,限られた評価能力を有するため,既存のユーザシミュレータをTDS評価に利用することは困難である。
さらに,ユーザシミュレータの評価はオープンな課題である。
本研究では,エンド・ツー・エンドTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムを生成するための,テスタに基づく評価フレームワークを提案する。
ユーザシミュレータは,新しい項目に遭遇したときの事前知識を参照して,シミュレータの推論を支援するメタファ的ユーザモデルを構築している。
シミュレータと変種間の模擬相互作用をチェックすることでシミュレータの品質を推定する。
3つのTDSデータセットを用いて実験を行った。
メタファ的ユーザシミュレータは、3つのデータセット上のアジェンダベースのシミュレータやseq2seqモデルよりも手作業による評価との一貫性が優れています。
関連論文リスト
- Promptable Closed-loop Traffic Simulation [57.36568236100507]
ProSimはマルチモーダルプロンプト可能なクローズドループトラフィックシミュレーションフレームワークである。
ProSimはクローズドループ方式でトラフィックシナリオをロールアウトし、各エージェントと他のトラフィック参加者とのインタラクションをモデル化する。
高速な交通シミュレーションの研究を支援するため,マルチモーダル・プロンプト・インストラクト・520k(ProSim-Instruct-520k)を開発した。
論文 参考訳(メタデータ) (2024-09-09T17:59:15Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - UniSim: A Neural Closed-Loop Sensor Simulator [76.79818601389992]
センサ搭載車両によって記録された1つのログをキャプチャする、ニューラルネットワークシミュレータUniSimを提示する。
UniSimは、静的バックグラウンドと動的アクターの両方を再構築するために、ニューラルネットワーク機能グリッドを構築する。
動的オブジェクトの学習可能な事前情報を組み込んで、畳み込みネットワークを利用して未確認領域を完成させる。
論文 参考訳(メタデータ) (2023-08-03T17:56:06Z) - Adversarial learning of neural user simulators for dialogue policy
optimisation [14.257597015289512]
強化学習に基づく対話ポリシーは、通常、ユーザシミュレータとのインタラクションで訓練される。
現在のデータ駆動シミュレータは、対話コーパス内のユーザの振る舞いを正確にモデル化するように訓練されている。
そこで本研究では,現実的なユーザ行動のシミュレートを目的とした,逆学習を用いた代替手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:17:16Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - Synthetic Data-Based Simulators for Recommender Systems: A Survey [55.60116686945561]
本調査は,モデリングとシミュレーションの分野における最近のトレンドを包括的に概観することを目的としている。
まずは、シミュレーターを実装するフレームワークの開発の背後にあるモチベーションから始めます。
我々は,既存のシミュレータの機能,近似,産業的有効性に基づいて,新しい一貫した一貫した分類を行う。
論文 参考訳(メタデータ) (2022-06-22T19:33:21Z) - HandoverSim: A Simulation Framework and Benchmark for Human-to-Robot
Object Handovers [60.45158007016316]
HandoverSimは、人間からロボットへのオブジェクトハンドオーバのシミュレーションベンチマークである。
我々は、物体の手でのつかみの最近のモーションキャプチャーデータセットを活用する。
標準化されたプロトコルとメトリクスを使って受信機のトレーニングと評価環境を作成します。
論文 参考訳(メタデータ) (2022-05-19T17:59:00Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。