論文の概要: "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs
- arxiv url: http://arxiv.org/abs/2204.11481v1
- Date: Mon, 25 Apr 2022 07:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 12:26:12.919862
- Title: "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs
- Title(参考訳): 「話す前に考える」:シングルアクションダイアログの計画によるマルチアクションダイアログポリシーの改善
- Authors: Shuo Zhang, Junzhou Zhao, Pinghui Wang, Yu Li, Yi Huang, Junlan Feng
- Abstract要約: マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
- 参考スコア(独自算出の注目度): 33.78889030078026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-action dialog policy (MADP), which generates multiple atomic dialog
actions per turn, has been widely applied in task-oriented dialog systems to
provide expressive and efficient system responses. Existing MADP models usually
imitate action combinations from the labeled multi-action dialog samples. Due
to data limitations, they generalize poorly toward unseen dialog flows. While
interactive learning and reinforcement learning algorithms can be applied to
incorporate external data sources of real users and user simulators, they take
significant manual effort to build and suffer from instability. To address
these issues, we propose Planning Enhanced Dialog Policy (PEDP), a novel
multi-task learning framework that learns single-action dialog dynamics to
enhance multi-action prediction. Our PEDP method employs model-based planning
for conceiving what to express before deciding the current response through
simulating single-action dialogs. Experimental results on the MultiWOZ dataset
demonstrate that our fully supervised learning-based method achieves a solid
task success rate of 90.6%, improving 3% compared to the state-of-the-art
methods.
- Abstract(参考訳): マルチアクションダイアログポリシー(MADP)は,タスク指向のダイアログシステムにおいて,表現的かつ効率的なシステム応答を提供するために広く適用されてきた。
既存のMADPモデルは通常、ラベル付きマルチアクションダイアログのサンプルからアクションの組み合わせを模倣する。
データ制限のため、見当たらないダイアログフローに対してあまり一般化しない。
インタラクティブな学習と強化学習アルゴリズムは、実際のユーザとユーザシミュレータの外部データソースを組み込むために応用できるが、それらは不安定な構築と苦しむために、かなりの手作業を必要とする。
これらの課題に対処するため,多行動予測を強化するために単一動作ダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
PEDP法では,単一動作ダイアログをシミュレーションすることで,現在の応答を決定する前に何を表現すべきかをモデルベースで決定する。
マルチウォズデータセットにおける実験結果から,完全教師付き学習ベース手法はタスク成功率90.6%に達し,最先端手法と比較して3%向上した。
関連論文リスト
- Unsupervised Extraction of Dialogue Policies from Conversations [3.102576158218633]
本稿では,データセットから対話ポリシーを抽出する上で,Large Language Modelがいかに有効かを示す。
そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T14:57:25Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Leveraging Explicit Procedural Instructions for Data-Efficient Action
Prediction [5.448684866061922]
タスク指向の対話は、しばしばエージェントがユーザ要求を満たすために複雑で多段階の手順を実行する必要がある。
大規模言語モデルは、制約のある環境でこれらの対話を自動化することに成功したが、その広範な展開は、トレーニングに必要なタスク固有の大量のデータによって制限されている。
本稿では,エージェントガイドラインから導出した明示的な指示を利用して対話システムを構築するための,データ効率のよいソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:42:08Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - EM Pre-training for Multi-party Dialogue Response Generation [86.25289241604199]
多人数対話では、応答発話の宛先を生成前に指定する必要がある。
本稿では,アドレナラベルを生成するための期待ステップを反復的に実行する期待最大化(EM)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:41Z) - GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with
Semi-Supervised Learning and Explicit Policy Injection [36.77204909711832]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから,対話ポリシーを明示的に学習する,事前学習型ダイアログモデルを提案する。
具体的には、事前学習中にポリシー最適化のためのダイアログアクト予測タスクを導入し、一貫性の規則化項を用いて、学習した表現を洗練させる。
その結果,GALAXYはタスク指向対話システムの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-11-29T15:24:36Z) - Retrieve & Memorize: Dialog Policy Learning with Multi-Action Memory [13.469140432108151]
本稿では,システム行動の学習を促進するための検索・記憶フレームワークを提案する。
メモリ拡張型マルチデコーダネットワークを用いて、候補動作に条件付きシステム動作を生成する。
本手法は,コンテキスト・ツー・レスポンス生成タスクにおける最先端モデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T07:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。