論文の概要: Joint System-Wise Optimization for Pipeline Goal-Oriented Dialog System
- arxiv url: http://arxiv.org/abs/2106.04835v1
- Date: Wed, 9 Jun 2021 06:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:27:42.122936
- Title: Joint System-Wise Optimization for Pipeline Goal-Oriented Dialog System
- Title(参考訳): パイプラインゴール指向ダイアログシステムの連系最適化
- Authors: Zichuan Lin, Jing Huang, Bowen Zhou, Xiaodong He, Tengyu Ma
- Abstract要約: 本稿では,パイプラインダイアログシステムのための新しい統合システムワイド最適化手法を提案する。
まず,NLUトレーニングのためのラベル付けプロセスを自動化する新しいデータ拡張手法を提案する。
第2に,ポアソン分布を用いた新しいポリシパラメータ化を提案する。
- 参考スコア(独自算出の注目度): 76.22810715401147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work (Takanobu et al., 2020) proposed the system-wise evaluation on
dialog systems and found that improvement on individual components (e.g., NLU,
policy) in prior work may not necessarily bring benefit to pipeline systems in
system-wise evaluation. To improve the system-wise performance, in this paper,
we propose new joint system-wise optimization techniques for the pipeline
dialog system. First, we propose a new data augmentation approach which
automates the labeling process for NLU training. Second, we propose a novel
stochastic policy parameterization with Poisson distribution that enables
better exploration and offers a principled way to compute policy gradient.
Third, we propose a reward bonus to help policy explore successful dialogs. Our
approaches outperform the competitive pipeline systems from Takanobu et al.
(2020) by big margins of 12% success rate in automatic system-wise evaluation
and of 16% success rate in human evaluation on the standard multi-domain
benchmark dataset MultiWOZ 2.1, and also outperform the recent state-of-the-art
end-to-end trained model from DSTC9.
- Abstract(参考訳): 最近の研究 (takanobu et al., 2020) は対話システムにおけるシステム評価を提案し、先行研究における個々のコンポーネント(nlu、ポリシーなど)の改善は必ずしもシステム評価におけるパイプラインシステムに利益をもたらすものではないことを見出した。
そこで本研究では,パイプライン・ダイアログ・システムのための新しい結合系最適化手法を提案する。
まず,NLUトレーニングのラベル付けプロセスを自動化する新しいデータ拡張手法を提案する。
第2に,poisson分布を用いた新しい確率的政策パラメータ化法を提案する。
第3に,成功ダイアログの探索を支援する報奨ボーナスを提案する。
当社のアプローチは,高信らの競合パイプラインシステムよりも優れています。
(2020年)自動システム評価における12%の成功率と、標準マルチドメインベンチマークデータセットであるmultiwoz 2.1での人間評価における16%の成功率の大きなマージンと、dstc9による最新の最先端のエンドツーエンドトレーニングモデルよりも優れている。
関連論文リスト
- Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback [71.55265615594669]
本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。
我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T20:21:26Z) - Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability [1.0985060632689174]
本研究の目的は,本研究の本質的な動機づけ強化学習アルゴリズムを検討することである。
我々は,ランダムなネットワーク蒸留と好奇心駆動型強化学習に適応して,国家訪問頻度を測定する。
不均質なデータセットであるMultiWOZの実験結果は、本質的なモチベーションに基づく議論システムは、外生的なインセンティブに依存する政策より優れていることを示している。
論文 参考訳(メタデータ) (2024-01-31T18:03:39Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - Two-pass Decoding and Cross-adaptation Based System Combination of
End-to-end Conformer and Hybrid TDNN ASR Systems [61.90743116707422]
本稿では,ハイブリッドTDNNとConformer E2E ASRシステムのためのマルチパス再構成とクロスアダプティブに基づくシステムの組み合わせについて検討する。
NIST Hub5'00、Rt03、Rt02の評価データに対して、マルチパス再構成を用いて得られた最良の組み合わせシステムにより、統計的に有意な単語誤り率(WER)が2.5%から3.9%の絶対値(22.5%から28.9%の相対値)に低下した。
論文 参考訳(メタデータ) (2022-06-23T10:17:13Z) - What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。
社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。
本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文 参考訳(メタデータ) (2022-02-08T11:44:20Z) - DORA: Toward Policy Optimization for Task-oriented Dialogue System with
Efficient Context [3.962145079528281]
我々は、効率的なコンテキスト(DORA)を用いた反復行動ポリシーを最適化した対話システムと呼ばれる多ドメインタスク指向対話システムを提案する。
DORAは、対話履歴全体ではなく、効率的なコンテキストを考慮した明示的なシステムアクションポリシーを使用することで、SLとRLの両方のステップで明確に最適化されている。
DORAはMultiWOZ 2.0で6.6ポイント、MultiWOZ 2.1で10.9ポイント改善した。
論文 参考訳(メタデータ) (2021-07-07T15:24:27Z) - SUMBT+LaRL: Effective Multi-domain End-to-end Neural Task-oriented
Dialog System [6.73550057218157]
実効的なマルチドメインエンドツーエンドトレーニング型ニューラルダイアログシステム SUMBT+LaRL を提案する。
具体的には、SUMBT+はユーザー行動とダイアログの信念状態を推定し、LaRLは潜在システム行動空間をモデル化し、応答を生成する。
本モデルでは,コーパスによる評価では85.4%,シミュレータによる評価では81.40%の新たな成功率を達成した。
論文 参考訳(メタデータ) (2020-09-22T11:02:21Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Single-step deep reinforcement learning for open-loop control of laminar
and turbulent flows [0.0]
本研究は,流体力学系の最適化と制御を支援するための深部強化学習(DRL)技術の能力を評価する。
原型ポリシー最適化(PPO)アルゴリズムの新たな"退化"バージョンを組み合わせることで、学習エピソード当たり1回だけシステムを最適化するニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-06-04T16:11:26Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。