論文の概要: SUMBT+LaRL: Effective Multi-domain End-to-end Neural Task-oriented
Dialog System
- arxiv url: http://arxiv.org/abs/2009.10447v3
- Date: Thu, 26 Aug 2021 08:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:25:00.745480
- Title: SUMBT+LaRL: Effective Multi-domain End-to-end Neural Task-oriented
Dialog System
- Title(参考訳): SUMBT+LaRL: マルチドメインエンドツーエンドニューラルタスク指向対話システム
- Authors: Hwaran Lee, Seokhwan Jo, HyungJun Kim, Sangkeun Jung, Tae-Yoon Kim
- Abstract要約: 実効的なマルチドメインエンドツーエンドトレーニング型ニューラルダイアログシステム SUMBT+LaRL を提案する。
具体的には、SUMBT+はユーザー行動とダイアログの信念状態を推定し、LaRLは潜在システム行動空間をモデル化し、応答を生成する。
本モデルでは,コーパスによる評価では85.4%,シミュレータによる評価では81.40%の新たな成功率を達成した。
- 参考スコア(独自算出の注目度): 6.73550057218157
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recent advent of neural approaches for developing each dialog component
in task-oriented dialog systems has remarkably improved, yet optimizing the
overall system performance remains a challenge. Besides, previous research on
modeling complicated multi-domain goal-oriented dialogs in end-to-end fashion
has been limited. In this paper, we present an effective multi-domain
end-to-end trainable neural dialog system SUMBT+LaRL that incorporates two
previous strong models and facilitates them to be fully differentiable.
Specifically, the SUMBT+ estimates user-acts as well as dialog belief states,
and the LaRL models latent system action spaces and generates responses given
the estimated contexts. We emphasize that the training framework of three steps
significantly and stably increase dialog success rates: separately pretraining
the SUMBT+ and LaRL, fine-tuning the entire system, and then reinforcement
learning of dialog policy. We also introduce new reward criteria of
reinforcement learning for dialog policy training. Then, we discuss
experimental results depending on the reward criteria and different dialog
evaluation methods. Consequently, our model achieved the new state-of-the-art
success rate of 85.4% on corpus-based evaluation, and a comparable success rate
of 81.40% on simulator-based evaluation provided by the DSTC8 challenge. To our
best knowledge, our work is the first comprehensive study of a modularized E2E
multi-domain dialog system that learning from each component to the entire
dialog policy for task success.
- Abstract(参考訳): 最近のタスク指向ダイアログシステムにおける各ダイアログコンポーネント開発のためのニューラルアプローチの出現は、著しく改善されているが、システム全体のパフォーマンスの最適化は依然として課題である。
さらに、複雑な多ドメイン目標指向対話をエンドツーエンドでモデル化する以前の研究は限られている。
本稿では,従来の2つの強みを組み込んだ多分野間学習型ニューラルダイアログシステム SUMBT+LaRL を提案する。
具体的には、SUMBT+はユーザー行動とダイアログの信念状態を推定し、LaRLは潜在システム行動空間をモデル化し、推定された文脈から応答を生成する。
我々は,SUMBT+とLaRLを個別に事前学習し,システム全体を微調整し,ダイアログポリシーの強化学習を行うことで,ダイアログの成功率を大幅に向上させることを強調した。
ダイアログ政策訓練における強化学習の新たな報奨基準についても紹介する。
そして,報奨基準と異なる対話評価手法による実験結果について議論する。
その結果,本モデルはコーパスベース評価で85.4%,シミュレータベース評価で81.40%の成功率を達成した。
私たちの研究は、各コンポーネントからタスク成功のためのダイアログポリシー全体を学ぶモジュール化されたE2Eマルチドメインダイアログシステムに関する、初めての包括的な研究です。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Interactive Evaluation of Dialog Track at DSTC9 [8.2208199207543]
第9回ダイアログ・システム・テクノロジー・チャレンジで対話的ダイアログ・トラックの評価が導入された。
本稿では,方法論と結果を含むトラックの概要について述べる。
論文 参考訳(メタデータ) (2022-07-28T22:54:04Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with
Semi-Supervised Learning and Explicit Policy Injection [36.77204909711832]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから,対話ポリシーを明示的に学習する,事前学習型ダイアログモデルを提案する。
具体的には、事前学習中にポリシー最適化のためのダイアログアクト予測タスクを導入し、一貫性の規則化項を用いて、学習した表現を洗練させる。
その結果,GALAXYはタスク指向対話システムの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-11-29T15:24:36Z) - UBAR: Towards Fully End-to-End Task-Oriented Dialog Systems with GPT-2 [10.994360742583261]
UBARは、対話セッション全体のシーケンスで、訓練済みの大きな一方向言語モデルGPT-2を微調整することによって取得される。
UBARは、複数の設定で最先端のパフォーマンスを達成し、レスポンス生成、ポリシー最適化、エンドツーエンドモデリングをそれぞれ4.7、3.5、9.4ポイント改善した。
論文 参考訳(メタデータ) (2020-12-07T09:08:16Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。
タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文 参考訳(メタデータ) (2020-03-17T01:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。