論文の概要: Graph Neural Network Policies and Imitation Learning for Multi-Domain
Task-Oriented Dialogues
- arxiv url: http://arxiv.org/abs/2210.05252v1
- Date: Tue, 11 Oct 2022 08:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:35:13.252115
- Title: Graph Neural Network Policies and Imitation Learning for Multi-Domain
Task-Oriented Dialogues
- Title(参考訳): 多領域タスク指向対話のためのグラフニューラルネットワークポリシと模倣学習
- Authors: Thibault Cordier, Tanguy Urvoy, Fabrice Lef\`evre, Lina M.
Rojas-Barahona
- Abstract要約: タスク指向対話システムは、人間と会話しながら特定の目標を達成するように設計されている。
実際には、複数のドメインとタスクを同時に扱う必要がある。
グラフニューラルネットワークに基づく構造化されたポリシーと模倣学習の度合いが組み合わさって、マルチドメイン対話を効果的に扱えることを示す。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Task-oriented dialogue systems are designed to achieve specific goals while
conversing with humans. In practice, they may have to handle simultaneously
several domains and tasks. The dialogue manager must therefore be able to take
into account domain changes and plan over different domains/tasks in order to
deal with multidomain dialogues. However, learning with reinforcement in such
context becomes difficult because the state-action dimension is larger while
the reward signal remains scarce. Our experimental results suggest that
structured policies based on graph neural networks combined with different
degrees of imitation learning can effectively handle multi-domain dialogues.
The reported experiments underline the benefit of structured policies over
standard policies.
- Abstract(参考訳): タスク指向対話システムは、人間と会話しながら特定の目標を達成するように設計されている。
実際には、複数のドメインとタスクを同時に扱う必要がある。
したがって、ダイアログマネージャは、複数のドメインのダイアログを扱うために、ドメインの変更や異なるドメイン/タスクを考慮に入れなければなりません。
しかし、報奨信号が乏しい状態の寸法が大きいため、そのような文脈での強化による学習は困難になる。
実験結果から,グラフニューラルネットワークに基づく構造化ポリシと模倣学習の度合いを組み合わせれば,マルチドメイン対話を効果的に処理できることが示唆された。
報告された実験は、標準方針よりも構造化政策の利点を裏付けるものである。
関連論文リスト
- Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - Reinforcement Learning of Multi-Domain Dialog Policies Via Action
Embeddings [38.51601073819774]
強化学習によるタスク指向の対話ポリシーの学習は、通常、ユーザと大量の対話を必要とする。
本稿では,異なるダイアログドメインからのデータを活用することで,各ドメインから必要なデータ量を削減することを提案する。
このアプローチがユーザとのインタラクションを著しく少なくし、学習に必要なダイアログ数の35%を削減し、シミュレートされたドメインの集合上で各ドメインに対して個別のポリシーをトレーニングするよりも高い習熟度で学習できることを示します。
論文 参考訳(メタデータ) (2022-07-01T14:49:05Z) - An empirical assessment of deep learning approaches to task-oriented
dialog management [3.9023554886892438]
異なるアプリケーションドメインからの3つのダイアログコーパスを用いたディープラーニングダイアログ管理のための異なる構成の評価を行う。
その結果、特徴抽出や入力表現に使用されるアプローチなど、精度に影響を及ぼす可能性のあるいくつかの側面を特定できるようになった。
論文 参考訳(メタデータ) (2021-08-07T16:05:48Z) - Distributed Structured Actor-Critic Reinforcement Learning for Universal
Dialogue Management [29.57382819573169]
我々は,ユーザに対応する対話行動を選択するポリシーの策定に重点を置いている。
逐次的なシステム決定プロセスは、部分的に観察可能なマルコフ決定プロセスに抽象化することができる。
過去数年間、ニューラルネットワーク(NN)を関数近似器として利用するディープ強化学習(DRL)アルゴリズムが数多く存在する。
論文 参考訳(メタデータ) (2020-09-22T05:39:31Z) - Meta Dialogue Policy Learning [58.045067703675095]
我々は、ドメイン間の共有可能な低レベル信号を利用するために、Deep Transferable Q-Network (DTQN)を提案する。
状態と行動表現空間をこれらの低レベル成分に対応する特徴部分空間に分解する。
実験において,本モデルは,成功率と対話効率の両方の観点から,ベースラインモデルより優れている。
論文 参考訳(メタデータ) (2020-06-03T23:53:06Z) - MTSS: Learn from Multiple Domain Teachers and Become a Multi-domain
Dialogue Expert [24.010266171280342]
マルチドメイン・セッティングにおける満足度向上のための新しい手法を提案する。
実学教育のシナリオに触発された本手法は,複数のドメイン固有の教師と普遍的な学生から構成される。
実験の結果,本手法はマルチドメインと単一ドメインの両方でSOTAと競合する結果を得た。
論文 参考訳(メタデータ) (2020-05-21T03:40:02Z) - UniConv: A Unified Conversational Neural Architecture for Multi-domain
Task-oriented Dialogues [101.96097419995556]
ユニコンブ」はタスク指向対話におけるエンドツーエンド対話システムのための新しい統合型ニューラルネットワークである。
我々は、MultiWOZ2.1ベンチマークにおいて、対話状態追跡、コンテキスト・ツー・テキスト、エンドツーエンド設定の包括的な実験を行う。
論文 参考訳(メタデータ) (2020-04-29T16:28:22Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z) - Non-Autoregressive Dialog State Tracking [122.2328875457225]
非自己回帰的対話状態追跡(NADST)の新しい枠組みを提案する。
NADSTはドメインとスロット間の潜在的な依存関係を分解し、分離されたスロットではなく完全なセットとして対話状態の予測を改善するためにモデルを最適化する。
以上の結果から,MultiWOZ 2.1コーパス上の全領域にわたる最先端の接合精度が得られた。
論文 参考訳(メタデータ) (2020-02-19T06:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。