論文の概要: Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System
- arxiv url: http://arxiv.org/abs/2006.06814v4
- Date: Fri, 19 Feb 2021 17:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:18:36.911659
- Title: Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System
- Title(参考訳): タスク指向対話システムのためのオプションフレームワークを用いた対話政策と自然言語生成の階層構造モデリング
- Authors: Jianhong Wang, Yuan Zhang, Tae-Kyun Kim, Yunjie Gu
- Abstract要約: HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
- 参考スコア(独自算出の注目度): 49.39150449455407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing task-oriented dialogue systems is a challenging research topic,
since it needs not only to generate utterances fulfilling user requests but
also to guarantee the comprehensibility. Many previous works trained end-to-end
(E2E) models with supervised learning (SL), however, the bias in annotated
system utterances remains as a bottleneck. Reinforcement learning (RL) deals
with the problem through using non-differentiable evaluation metrics (e.g., the
success rate) as rewards. Nonetheless, existing works with RL showed that the
comprehensibility of generated system utterances could be corrupted when
improving the performance on fulfilling user requests. In our work, we (1)
propose modelling the hierarchical structure between dialogue policy and
natural language generator (NLG) with the option framework, called HDNO, where
the latent dialogue act is applied to avoid designing specific dialogue act
representations; (2) train HDNO via hierarchical reinforcement learning (HRL),
as well as suggest the asynchronous updates between dialogue policy and NLG
during training to theoretically guarantee their convergence to a local
maximizer; and (3) propose using a discriminator modelled with language models
as an additional reward to further improve the comprehensibility. We test HDNO
on MultiWoz 2.0 and MultiWoz 2.1, the datasets on multi-domain dialogues, in
comparison with word-level E2E model trained with RL, LaRL and HDSA, showing
improvements on the performance evaluated by automatic evaluation metrics and
human evaluation. Finally, we demonstrate the semantic meanings of latent
dialogue acts to show the explanability for HDNO.
- Abstract(参考訳): タスク指向対話システムの設計は,ユーザの要求を満たす発話を生成するだけでなく,その理解性も保証する必要があるため,課題となる研究課題である。
従来の多くの研究は、教師付き学習(SL)を用いたエンドツーエンド(E2E)モデルを訓練していたが、注釈付きシステム発話のバイアスがボトルネックとして残っている。
強化学習(rl)は、非微分可能な評価指標(例えば、成功率)を報酬として用いることで問題に対処する。
それにもかかわらず、既存のRLを用いた研究は、ユーザ要求を満たすパフォーマンスを改善する際に、生成されたシステム発話の理解性を損なう可能性があることを示した。
In our work, we (1) propose modelling the hierarchical structure between dialogue policy and natural language generator (NLG) with the option framework, called HDNO, where the latent dialogue act is applied to avoid designing specific dialogue act representations; (2) train HDNO via hierarchical reinforcement learning (HRL), as well as suggest the asynchronous updates between dialogue policy and NLG during training to theoretically guarantee their convergence to a local maximizer; and (3) propose using a discriminator modelled with language models as an additional reward to further improve the comprehensibility.
rl,larl,hdsaで訓練された単語レベルのe2eモデルと比較し,マルチウォズ2.0とマルチウォズ2.1でhdnoをテストし,自動評価指標と人間評価により評価した性能の改善を示した。
最後に,HDNOの説明可能性を示すために,潜在対話行動の意味を示す。
関連論文リスト
- JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Multi-Stage Coarse-to-Fine Contrastive Learning for Conversation Intent
Induction [34.25242109800481]
本稿では,第11回対話システム技術チャレンジ(DSTC11)におけるタスク指向対話における会話からのインテントインジェクションの追跡方法について述べる。
意図的クラスタリングの本質は、異なる対話発話の表現を区別することにある。
DSTC11の評価結果では,このトラックの2つのサブタスクのうちの1位が提案システムである。
論文 参考訳(メタデータ) (2023-03-09T04:51:27Z) - Quick Starting Dialog Systems with Paraphrase Generation [0.0]
本稿では,既存の事例からより多くのデータを人工的に生成することで,対話エージェント作成のコストと労力を削減する手法を提案する。
提案手法は,人間の努力がほとんどないダイアログシステムを起動し,実際のエンドユーザーとの対話を可能にするのに十分なレベルの性能を実現する。
論文 参考訳(メタデータ) (2022-04-06T02:35:59Z) - GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with
Semi-Supervised Learning and Explicit Policy Injection [36.77204909711832]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから,対話ポリシーを明示的に学習する,事前学習型ダイアログモデルを提案する。
具体的には、事前学習中にポリシー最適化のためのダイアログアクト予測タスクを導入し、一貫性の規則化項を用いて、学習した表現を洗練させる。
その結果,GALAXYはタスク指向対話システムの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-11-29T15:24:36Z) - DialogBERT: Discourse-Aware Response Generation via Learning to Recover
and Rank Utterances [18.199473005335093]
本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。
発話間の談話レベルのコヒーレンスを効果的に把握するために,マスク付き発話回帰を含む2つの訓練目標を提案する。
3つのマルチターン会話データセットの実験により、我々のアプローチがベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-03T09:06:23Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Modeling Long Context for Task-Oriented Dialogue State Generation [51.044300192906995]
本稿では,シンプルで効果的な発話タグ付け手法と双方向言語モデルを用いたマルチタスク学習モデルを提案する。
提案手法は,入力対話コンテキストシーケンスが長い場合に,ベースラインの性能が著しく低下する,という問題を解決する。
本実験では,MultiWOZ 2.0データセットにおいて,ベースラインに対して7.03%の相対的改善を実現し,新しい最先端のジョイントゴール精度を52.04%に設定した。
論文 参考訳(メタデータ) (2020-04-29T11:02:25Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。