論文の概要: JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning
- arxiv url: http://arxiv.org/abs/2309.00230v1
- Date: Fri, 1 Sep 2023 03:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:43:29.364686
- Title: JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning
- Title(参考訳): JoTR:対話政策学習のための共同トランスフォーマーと強化学習フレームワーク
- Authors: Wai-Chung Kwan, Huimin Wang, Hongru Wang, Zezhong Wang, Xian Wu,
Yefeng Zheng, Kam-Fai Wong
- Abstract要約: 対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
- 参考スコア(独自算出の注目度): 53.83063435640911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialogue policy learning (DPL) is a crucial component of dialogue modelling.
Its primary role is to determine the appropriate abstract response, commonly
referred to as the "dialogue action". Traditional DPL methodologies have
treated this as a sequential decision problem, using pre-defined action
candidates extracted from a corpus. However, these incomplete candidates can
significantly limit the diversity of responses and pose challenges when dealing
with edge cases, which are scenarios that occur only at extreme operating
parameters. To address these limitations, we introduce a novel framework, JoTR.
This framework is unique as it leverages a text-to-text Transformer-based model
to generate flexible dialogue actions. Unlike traditional methods, JoTR
formulates a word-level policy that allows for a more dynamic and adaptable
dialogue action generation, without the need for any action templates. This
setting enhances the diversity of responses and improves the system's ability
to handle edge cases effectively. In addition, JoTR employs reinforcement
learning with a reward-shaping mechanism to efficiently finetune the word-level
dialogue policy, which allows the model to learn from its interactions,
improving its performance over time. We conducted an extensive evaluation of
JoTR to assess its effectiveness. Our extensive evaluation shows that JoTR
achieves state-of-the-art performance on two benchmark dialogue modelling
tasks, as assessed by both user simulators and human evaluators.
- Abstract(参考訳): 対話政策学習(DPL)は対話モデリングの重要な構成要素である。
その主な役割は適切な抽象的反応(一般に「対話行動」と呼ばれる)を決定することである。
従来のDPL手法では、コーパスから抽出された事前定義されたアクション候補を用いて、これをシーケンシャルな決定問題として扱ってきた。
しかしながら、これらの不完全な候補は応答の多様性を著しく制限し、極端な操作パラメータでのみ発生するシナリオであるエッジケースを扱う際の課題を提起することができる。
これらの制約に対処するために、新しいフレームワーク、JoTRを紹介します。
このフレームワークは、テキストからテキストへのトランスフォーマーベースのモデルを利用してフレキシブルな対話アクションを生成する。
従来の方法とは異なり、JoTRはアクションテンプレートを必要とせずによりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
この設定は応答の多様性を高め、エッジケースを効果的に処理するシステムの能力を向上させる。
さらに、jotrは強化学習を用いて、単語レベルの対話ポリシーを効率的に微調整し、モデルがその相互作用から学ぶことができ、時間とともにパフォーマンスが向上する。
有効性を評価するため,JoTRの広範囲な評価を行った。
評価の結果,JoTRは2つのベンチマーク対話モデルタスクにおいて,ユーザシミュレータと人的評価器の両方で評価され,最先端の性能を達成できた。
関連論文リスト
- Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - DiactTOD: Learning Generalizable Latent Dialogue Acts for Controllable
Task-Oriented Dialogue Systems [15.087619144902776]
本稿では,潜在空間における対話行動を表現する対話行動モデル(DiactTOD)を提案する。
大規模なコーパスで事前トレーニングを行うと、DiactTODは対話を予測し制御し、制御可能な応答を生成する。
論文 参考訳(メタデータ) (2023-08-01T23:29:16Z) - Why Guided Dialog Policy Learning performs well? Understanding the role
of adversarial learning and its alternative [0.44267358790081573]
近年では、ダイアログポリシー学習(DPL)のための有望な選択肢として強化学習が登場している。
収集データから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器と対話ポリシーを同時に訓練することである。
本稿では,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて明らかにする。
本稿では,ALを報酬推定から排除し,その利点を保ちながらDPLを除去する手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T12:29:29Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with
Semi-Supervised Learning and Explicit Policy Injection [36.77204909711832]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから,対話ポリシーを明示的に学習する,事前学習型ダイアログモデルを提案する。
具体的には、事前学習中にポリシー最適化のためのダイアログアクト予測タスクを導入し、一貫性の規則化項を用いて、学習した表現を洗練させる。
その結果,GALAXYはタスク指向対話システムの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-11-29T15:24:36Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Controlling Dialogue Generation with Semantic Exemplars [55.460082747572734]
本稿では,経験的応答に現れる意味的フレームを用いて生成をガイドする,経験的対話生成モデルEDGEを提案する。
単語自体の単語ではなく、経験者の意味的フレームに基づく対話生成の制御により、生成した応答の一貫性が向上することを示す。
論文 参考訳(メタデータ) (2020-08-20T17:02:37Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。