論文の概要: Meta Dialogue Policy Learning
- arxiv url: http://arxiv.org/abs/2006.02588v1
- Date: Wed, 3 Jun 2020 23:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 17:18:10.419203
- Title: Meta Dialogue Policy Learning
- Title(参考訳): メタ対話政策学習
- Authors: Yumo Xu, Chenguang Zhu, Baolin Peng and Michael Zeng
- Abstract要約: 我々は、ドメイン間の共有可能な低レベル信号を利用するために、Deep Transferable Q-Network (DTQN)を提案する。
状態と行動表現空間をこれらの低レベル成分に対応する特徴部分空間に分解する。
実験において,本モデルは,成功率と対話効率の両方の観点から,ベースラインモデルより優れている。
- 参考スコア(独自算出の注目度): 58.045067703675095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialog policy determines the next-step actions for agents and hence is
central to a dialogue system. However, when migrated to novel domains with
little data, a policy model can fail to adapt due to insufficient interactions
with the new environment. We propose Deep Transferable Q-Network (DTQN) to
utilize shareable low-level signals between domains, such as dialogue acts and
slots. We decompose the state and action representation space into feature
subspaces corresponding to these low-level components to facilitate
cross-domain knowledge transfer. Furthermore, we embed DTQN in a meta-learning
framework and introduce Meta-DTQN with a dual-replay mechanism to enable
effective off-policy training and adaptation. In experiments, our model
outperforms baseline models in terms of both success rate and dialogue
efficiency on the multi-domain dialogue dataset MultiWOZ 2.0.
- Abstract(参考訳): ダイアログポリシーはエージェントの次のステップアクションを決定するため、対話システムの中心となる。
しかし、少ないデータで新しいドメインに移行する場合、新しい環境との相互作用が不十分なため、ポリシーモデルは適応できない可能性がある。
本稿では,対話行動やスロットといったドメイン間の共有可能な低レベル信号を利用するために,Deep Transferable Q-Network (DTQN)を提案する。
状態と行動表現空間をこれらの低レベルコンポーネントに対応する機能部分空間に分解し、ドメイン間の知識伝達を容易にする。
さらに,メタ学習フレームワークにdtqnを組み込んで,効果的なオフポリシートレーニングと適応を可能にするデュアルリプレイ機構を備えたメタdtqnを紹介する。
実験では、マルチドメイン対話データセットMultiWOZ 2.0において、成功率と対話効率の両面からベースラインモデルより優れている。
関連論文リスト
- Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Graph Neural Network Policies and Imitation Learning for Multi-Domain
Task-Oriented Dialogues [0.716879432974126]
タスク指向対話システムは、人間と会話しながら特定の目標を達成するように設計されている。
実際には、複数のドメインとタスクを同時に扱う必要がある。
グラフニューラルネットワークに基づく構造化されたポリシーと模倣学習の度合いが組み合わさって、マルチドメイン対話を効果的に扱えることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:29:10Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - Improving Multi-Party Dialogue Discourse Parsing via Domain Integration [25.805553277418813]
マルチパーティ会話は、対話的なターン間のセマンティックレベルの相関によって暗黙的に組織される。
対話談話分析は,基本談話単位間の係り受け構造と関係の予測に応用できる。
対話談話アノテーションを持つ既存のコーパスは、限られたサンプルサイズを持つ特定のドメインから収集される。
論文 参考訳(メタデータ) (2021-10-09T09:36:22Z) - Transferable Dialogue Systems and User Simulators [17.106518400787156]
対話システムのトレーニングの難しさの1つは、トレーニングデータの欠如である。
本稿では,対話システムとユーザシミュレータ間の対話を通して対話データを作成する可能性について検討する。
我々は,2つのエージェント間のセルフプレイを通じて,新たな対話シナリオを組み込むことのできるモデリングフレームワークを開発する。
論文 参考訳(メタデータ) (2021-07-25T22:59:09Z) - A Simple But Effective Approach to n-shot Task-Oriented Dialogue
Augmentation [32.43362825854633]
本稿では,タスク指向対話を完全自動で生成するフレームワークを提案する。
我々のフレームワークはタスク指向対話における各ターンペアは特定の機能を持つという単純な考え方を用いています。
いくつかのドメインの微調整シナリオの大幅な改善を観察します。
論文 参考訳(メタデータ) (2021-02-27T18:55:12Z) - Modeling Long Context for Task-Oriented Dialogue State Generation [51.044300192906995]
本稿では,シンプルで効果的な発話タグ付け手法と双方向言語モデルを用いたマルチタスク学習モデルを提案する。
提案手法は,入力対話コンテキストシーケンスが長い場合に,ベースラインの性能が著しく低下する,という問題を解決する。
本実験では,MultiWOZ 2.0データセットにおいて,ベースラインに対して7.03%の相対的改善を実現し,新しい最先端のジョイントゴール精度を52.04%に設定した。
論文 参考訳(メタデータ) (2020-04-29T11:02:25Z) - Non-Autoregressive Dialog State Tracking [122.2328875457225]
非自己回帰的対話状態追跡(NADST)の新しい枠組みを提案する。
NADSTはドメインとスロット間の潜在的な依存関係を分解し、分離されたスロットではなく完全なセットとして対話状態の予測を改善するためにモデルを最適化する。
以上の結果から,MultiWOZ 2.1コーパス上の全領域にわたる最先端の接合精度が得られた。
論文 参考訳(メタデータ) (2020-02-19T06:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。