論文の概要: Taming Continuous Posteriors for Latent Variational Dialogue Policies
- arxiv url: http://arxiv.org/abs/2205.07633v1
- Date: Mon, 16 May 2022 12:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 13:53:08.805335
- Title: Taming Continuous Posteriors for Latent Variational Dialogue Policies
- Title(参考訳): 潜時変時対話政策のための連続的後部テーピング
- Authors: Marin Vlastelica, Patrick Ernst, Gyuri Szarvas
- Abstract要約: 我々は,潜在作用RLに対するガウス変分後部を再検討し,分類学よりも優れた性能が得られることを示す。
トレーニング手順を簡素化し、潜伏する対話ポリシーを標準化する方法を提案する。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utilizing amortized variational inference for latent-action reinforcement
learning (RL) has been shown to be an effective approach in Task-oriented
Dialogue (ToD) systems for optimizing dialogue success. Until now, categorical
posteriors have been argued to be one of the main drivers of performance. In
this work we revisit Gaussian variational posteriors for latent-action RL and
show that they can yield even better performance than categoricals. We achieve
this by simplifying the training procedure and propose ways to regularize the
latent dialogue policy to retain good response coherence. Using continuous
latent representations our model achieves state of the art dialogue success
rate on the MultiWOZ benchmark, and also compares well to categorical latent
methods in response coherence.
- Abstract(参考訳): タスク指向対話 (tod) システムでは, 潜在行動強化学習 (rl) における不定形変分推論の活用が, 対話成功の最適化に有効であることが示されている。
これまで、カテゴリー後部はパフォーマンスの主要な要因の1つとして議論されてきた。
本研究では、潜在作用RLに対するガウス変分後部を再検討し、分類学よりも優れた性能が得られることを示す。
学習手順を簡素化し,適切な応答コヒーレンスを維持するために潜在対話政策を定式化する手法を提案する。
連続潜時表現を用いることで,MultiWOZベンチマーク上での対話成功率の状態を達成し,応答コヒーレンスにおけるカテゴリー潜時手法とよく比較する。
関連論文リスト
- Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback [71.55265615594669]
本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。
我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T20:21:26Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Deep RL with Hierarchical Action Exploration for Dialogue Generation [0.0]
本稿では,対話ポリシーの性能がサンプリングサイズと正の相関関係にあることを示す理論的解析と実験について述べる。
サンプリングプロセスにおいて最も有望な応答カテゴリを探索する新しい二重粒度Q関数を導入する。
提案アルゴリズムは, 説明可能性と制御性の両方を示し, 期待値の高い応答を生成する。
論文 参考訳(メタデータ) (2023-03-22T09:29:22Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - Imperfect also Deserves Reward: Multi-Level and Sequential Reward
Modeling for Better Dialog Management [17.168214640974337]
タスク指向ダイアログシステムでは、強化学習ベースのダイアログ管理モジュールのトレーニングは、rlのスパース報酬によるサンプル効率の低下と収束速度の低下に苦しむ。
我々は,報酬をドメイン,アクタ,スロットという3レベル階層に分解する多段階報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-10T12:20:23Z) - SUMBT+LaRL: Effective Multi-domain End-to-end Neural Task-oriented
Dialog System [6.73550057218157]
実効的なマルチドメインエンドツーエンドトレーニング型ニューラルダイアログシステム SUMBT+LaRL を提案する。
具体的には、SUMBT+はユーザー行動とダイアログの信念状態を推定し、LaRLは潜在システム行動空間をモデル化し、応答を生成する。
本モデルでは,コーパスによる評価では85.4%,シミュレータによる評価では81.40%の新たな成功率を達成した。
論文 参考訳(メタデータ) (2020-09-22T11:02:21Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Semi-Supervised Dialogue Policy Learning via Stochastic Reward
Estimation [33.688270031454095]
我々は、ターンバイターンの報酬を提供するための最適なポリシーのステートアクションペアから学ぶために報酬学習を導入する。
このアプローチには、人間対人間対話の完全なステートアクションアノテーションが必要である。
半教師付き政策学習のための新たな報酬学習手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T06:28:44Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。