論文の概要: Reinforcement Learning of Multi-Domain Dialog Policies Via Action
Embeddings
- arxiv url: http://arxiv.org/abs/2207.00468v1
- Date: Fri, 1 Jul 2022 14:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 12:47:49.382725
- Title: Reinforcement Learning of Multi-Domain Dialog Policies Via Action
Embeddings
- Title(参考訳): アクション埋め込みによるマルチドメインダイアログの強化学習
- Authors: Jorge A. Mendez and Alborz Geramifard and Mohammad Ghavamzadeh and
Bing Liu
- Abstract要約: 強化学習によるタスク指向の対話ポリシーの学習は、通常、ユーザと大量の対話を必要とする。
本稿では,異なるダイアログドメインからのデータを活用することで,各ドメインから必要なデータ量を削減することを提案する。
このアプローチがユーザとのインタラクションを著しく少なくし、学習に必要なダイアログ数の35%を削減し、シミュレートされたドメインの集合上で各ドメインに対して個別のポリシーをトレーニングするよりも高い習熟度で学習できることを示します。
- 参考スコア(独自算出の注目度): 38.51601073819774
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning task-oriented dialog policies via reinforcement learning typically
requires large amounts of interaction with users, which in practice renders
such methods unusable for real-world applications. In order to reduce the data
requirements, we propose to leverage data from across different dialog domains,
thereby reducing the amount of data required from each given domain. In
particular, we propose to learn domain-agnostic action embeddings, which
capture general-purpose structure that informs the system how to act given the
current dialog context, and are then specialized to a specific domain. We show
how this approach is capable of learning with significantly less interaction
with users, with a reduction of 35% in the number of dialogs required to learn,
and to a higher level of proficiency than training separate policies for each
domain on a set of simulated domains.
- Abstract(参考訳): 強化学習を通じてタスク指向のダイアログポリシーを学習するには、通常、ユーザとの大量のインタラクションが必要であり、現実のアプリケーションでは利用できないようなメソッドを実際にレンダリングする。
データ要求を減らすために、異なるダイアログドメインからのデータを活用することを提案し、それによって各ドメインから要求されるデータ量を削減する。
特に、ドメインに依存しないアクション埋め込みを学習し、現在の対話状況に応じてシステムに行動の仕方を伝える汎用構造を捉え、特定のドメインに特化することを提案する。
このアプローチがユーザとのインタラクションを著しく少なくし、学習に必要なダイアログ数の35%を削減し、シミュレートされたドメインの集合上で各ドメインに対して個別のポリシーをトレーニングするよりも高い習熟度で学習できることを示します。
関連論文リスト
- Zero-Shot Generalizable End-to-End Task-Oriented Dialog System using
Context Summarization and Domain Schema [2.7178968279054936]
タスク指向対話システムにおける最先端のアプローチは、条件付きシーケンス生成タスクとして問題を定式化する。
これは、新しいドメインまたはタスクごとにラベル付きトレーニングデータを必要とする。
本稿では,ZS-ToDという,Zero-Shotの汎用的なエンドツーエンドタスク指向ダイアログシステムについて紹介する。
論文 参考訳(メタデータ) (2023-03-28T18:56:31Z) - PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment [58.46761798403072]
モデルベース自動対話評価基準(ADEM)は,複数の領域にわたって良好に機能することが期待される。
大きな進歩にもかかわらず、ある領域でうまく機能するADEMは必ずしも他の領域に一般化するとは限らない。
本稿では,共有トランスフォーマーエンコーダと軽量アダプタの集合からなるPanel of Experts (PoE)ネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-18T02:26:50Z) - Knowledge-grounded Dialog State Tracking [12.585986197627477]
我々は,外部に符号化された知識に基づいて,対話状態の追跡を行う。
ダイアログのコンテキストに基づいて,様々な形態の関連知識を問い合わせる。
提案手法の強塩基性よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-13T01:34:08Z) - Graph Neural Network Policies and Imitation Learning for Multi-Domain
Task-Oriented Dialogues [0.716879432974126]
タスク指向対話システムは、人間と会話しながら特定の目標を達成するように設計されている。
実際には、複数のドメインとタスクを同時に扱う必要がある。
グラフニューラルネットワークに基づく構造化されたポリシーと模倣学習の度合いが組み合わさって、マルチドメイン対話を効果的に扱えることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:29:10Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Meta Dialogue Policy Learning [58.045067703675095]
我々は、ドメイン間の共有可能な低レベル信号を利用するために、Deep Transferable Q-Network (DTQN)を提案する。
状態と行動表現空間をこれらの低レベル成分に対応する特徴部分空間に分解する。
実験において,本モデルは,成功率と対話効率の両方の観点から,ベースラインモデルより優れている。
論文 参考訳(メタデータ) (2020-06-03T23:53:06Z) - UniConv: A Unified Conversational Neural Architecture for Multi-domain
Task-oriented Dialogues [101.96097419995556]
ユニコンブ」はタスク指向対話におけるエンドツーエンド対話システムのための新しい統合型ニューラルネットワークである。
我々は、MultiWOZ2.1ベンチマークにおいて、対話状態追跡、コンテキスト・ツー・テキスト、エンドツーエンド設定の包括的な実験を行う。
論文 参考訳(メタデータ) (2020-04-29T16:28:22Z) - Learning Dialog Policies from Weak Demonstrations [32.149932955715705]
Demonstrations (DQfD) からの深層Q-learningを構築し,ダイアログデータを利用してエージェントを誘導し,ユーザの要求に応答する。
ラベル付きデータ、ラベル付きデータ、さらにはラベルなしデータを使って、必要なデータに関する仮定を徐々に減らします。
挑戦的なマルチドメインダイアログシステムフレームワークの実験は、我々のアプローチを検証し、ドメイン外のデータでトレーニングしても高い成功率を得る。
論文 参考訳(メタデータ) (2020-04-23T10:22:16Z) - Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog [70.79442700890843]
本稿では,対象ドメインと各ドメインの関連性を自動的に活用する新しい動的核融合ネットワーク(DF-Net)を提案する。
トレーニングデータが少ないと、平均13.9%の事前最良モデルを上回り、転送可能性を示す。
論文 参考訳(メタデータ) (2020-04-23T08:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。