論文の概要: Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2402.13374v1
- Date: Tue, 20 Feb 2024 20:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:56:40.732374
- Title: Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems
- Title(参考訳): タスク指向対話システムのための信頼性LLMベースユーザシミュレータ
- Authors: Ivan Sekuli\'c, Silvia Terragni, Victor Guimar\~aes, Nghia Khau, Bruna
Guedes, Modestas Filipavicius, Andr\'e Ferreira Manso, Roland Mathis
- Abstract要約: 本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
- 参考スコア(独自算出の注目度): 2.788542465279969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of dialogue systems, user simulation techniques have emerged as
a game-changer, redefining the evaluation and enhancement of task-oriented
dialogue (TOD) systems. These methods are crucial for replicating real user
interactions, enabling applications like synthetic data augmentation, error
detection, and robust evaluation. However, existing approaches often rely on
rigid rule-based methods or on annotated data. This paper introduces DAUS, a
Domain-Aware User Simulator. Leveraging large language models, we fine-tune
DAUS on real examples of task-oriented dialogues. Results on two relevant
benchmarks showcase significant improvements in terms of user goal fulfillment.
Notably, we have observed that fine-tuning enhances the simulator's coherence
with user goals, effectively mitigating hallucinations -- a major source of
inconsistencies in simulator responses.
- Abstract(参考訳): 対話システムの分野では、タスク指向対話(tod)システムの評価と強化を再定義するゲームチェンジャーとしてユーザシミュレーション技術が登場している。
これらの方法は実際のユーザインタラクションの複製に不可欠であり、合成データ拡張、エラー検出、堅牢な評価などのアプリケーションを可能にする。
しかし、既存のアプローチは厳格なルールベースのメソッドや注釈付きデータに依存することが多い。
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
大規模言語モデルを活用することで,タスク指向対話の実例に基づいてDAUSを微調整する。
関連する2つのベンチマークの結果は、ユーザ目標達成の観点から大幅に改善されている。
特に,微調整によってユーザ目標との一貫性が向上し,幻覚を効果的に緩和することが,シミュレータ応答の不整合の主な原因である。
関連論文リスト
- Large Language Models as User-Agents for Evaluating Task-Oriented-Dialogue Systems [6.8738526619759535]
タスク指向対話(TOD)モデルを評価するために、オフラインデータセットが使用されている。
コンテキスト対応のユーザエージェントは、人間の会話の多様性と予測不能をシミュレートすることができる。
論文 参考訳(メタデータ) (2024-11-15T06:05:45Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - In-Context Learning User Simulators for Task-Oriented Dialog Systems [1.7086737326992172]
本稿では,タスク指向対話システムにおけるユーザシミュレーションにおける大規模言語モデルの新たな応用について述べる。
提案手法は,これらのモデルのパワーを生かして,ユーザ目標と限られた対話例に基づく多様な発話を生成する。
論文 参考訳(メタデータ) (2023-06-01T15:06:11Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。