論文の概要: Learning Dialog Policies from Weak Demonstrations
- arxiv url: http://arxiv.org/abs/2004.11054v2
- Date: Thu, 13 Aug 2020 16:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 08:45:13.823542
- Title: Learning Dialog Policies from Weak Demonstrations
- Title(参考訳): 弱デモからダイアログポリシーを学ぶ
- Authors: Gabriel Gordon-Hall, Philip John Gorinski, Shay B. Cohen
- Abstract要約: Demonstrations (DQfD) からの深層Q-learningを構築し,ダイアログデータを利用してエージェントを誘導し,ユーザの要求に応答する。
ラベル付きデータ、ラベル付きデータ、さらにはラベルなしデータを使って、必要なデータに関する仮定を徐々に減らします。
挑戦的なマルチドメインダイアログシステムフレームワークの実験は、我々のアプローチを検証し、ドメイン外のデータでトレーニングしても高い成功率を得る。
- 参考スコア(独自算出の注目度): 32.149932955715705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning is a promising approach to training a dialog
manager, but current methods struggle with the large state and action spaces of
multi-domain dialog systems. Building upon Deep Q-learning from Demonstrations
(DQfD), an algorithm that scores highly in difficult Atari games, we leverage
dialog data to guide the agent to successfully respond to a user's requests. We
make progressively fewer assumptions about the data needed, using labeled,
reduced-labeled, and even unlabeled data to train expert demonstrators. We
introduce Reinforced Fine-tune Learning, an extension to DQfD, enabling us to
overcome the domain gap between the datasets and the environment. Experiments
in a challenging multi-domain dialog system framework validate our approaches,
and get high success rates even when trained on out-of-domain data.
- Abstract(参考訳): 深層強化学習は、ダイアログマネージャのトレーニングに有望なアプローチだが、現在の手法では、マルチドメインダイアログシステムの大きな状態とアクション空間に苦労している。
dqfd(deep q-learning from demonstrations, dqfd)は、atariの難解なゲームで高い得点を得られるアルゴリズムで、対話データを利用してエージェントがユーザーの要求にうまく反応するよう誘導する。
必要なデータに対する仮定を徐々に減らし、ラベル付き、ラベル付き、さらにはラベルなしのデータを使って専門家のデモを訓練します。
我々は,dqfdの拡張である強化微調整学習を導入し,データセットと環境間のドメイン間ギャップを克服する。
挑戦的なマルチドメインダイアログシステムフレームワークの実験は、我々のアプローチを検証し、ドメイン外データでトレーニングしても高い成功率を得ます。
関連論文リスト
- Improving Conversational Recommendation Systems via Counterfactual Data
Simulation [73.4526400381668]
会話推薦システム(CRS)は、自然言語による会話を通じてレコメンデーションサービスを提供することを目的としている。
既存のCRSアプローチは、トレーニングデータの不足により、トレーニングの不十分な問題に悩まされることが多い。
我々は,CRSにおけるデータ不足の問題を緩和するため,CFCRSと呼ばれるCRSに対するCounterFactualデータシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T12:48:56Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Discovering Customer-Service Dialog System with Semi-Supervised Learning
and Coarse-to-Fine Intent Detection [6.869753194843482]
タスク指向ダイアログは,マルチターン会話による特定の目標達成を支援することを目的としている。
教師/学生のパラダイムに基づいた弱教師付きデータセットを構築した。
また,ユーザ意図を検出するために,モジュール型対話システムと粗粒度分類を統合した。
論文 参考訳(メタデータ) (2022-12-23T14:36:43Z) - Reinforcement Learning of Multi-Domain Dialog Policies Via Action
Embeddings [38.51601073819774]
強化学習によるタスク指向の対話ポリシーの学習は、通常、ユーザと大量の対話を必要とする。
本稿では,異なるダイアログドメインからのデータを活用することで,各ドメインから必要なデータ量を削減することを提案する。
このアプローチがユーザとのインタラクションを著しく少なくし、学習に必要なダイアログ数の35%を削減し、シミュレートされたドメインの集合上で各ドメインに対して個別のポリシーをトレーニングするよりも高い習熟度で学習できることを示します。
論文 参考訳(メタデータ) (2022-07-01T14:49:05Z) - Structure Extraction in Task-Oriented Dialogues with Slot Clustering [94.27806592467537]
タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。
本稿では,タスク指向対話における構造抽出のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T20:18:12Z) - Self-training Improves Pre-training for Few-shot Learning in
Task-oriented Dialog Systems [47.937191088981436]
大規模事前訓練型言語モデルでは、ToDで数発の学習を行う上で有望な結果が示されている。
本稿では,より強力な学生モデルを訓練するために,最も自信のないラベル付きデータを反復的にラベル付けする自己学習手法を提案する。
目的分類,ダイアログ状態追跡,ダイアログアクト予測,応答選択など,ToDの4つの下流タスクに関する実験と分析を行った。
論文 参考訳(メタデータ) (2021-08-28T07:22:06Z) - Transferable Dialogue Systems and User Simulators [17.106518400787156]
対話システムのトレーニングの難しさの1つは、トレーニングデータの欠如である。
本稿では,対話システムとユーザシミュレータ間の対話を通して対話データを作成する可能性について検討する。
我々は,2つのエージェント間のセルフプレイを通じて,新たな対話シナリオを組み込むことのできるモデリングフレームワークを開発する。
論文 参考訳(メタデータ) (2021-07-25T22:59:09Z) - Data-Efficient Methods for Dialogue Systems [4.061135251278187]
会話型ユーザインタフェース(CUI)は、SiriやAlexaといったコンシューマにフォーカスした製品において、日常的に広く普及している。
ディープラーニングは、対話システムにおける最近のブレークスルーの根底にあるが、専門家によって注釈付けされることが多い、非常に大量のトレーニングデータを必要とする。
本稿では,最小限のデータから頑健な対話システムを訓練するための一連の手法を紹介する。
論文 参考訳(メタデータ) (2020-12-05T02:51:09Z) - Meta Dialogue Policy Learning [58.045067703675095]
我々は、ドメイン間の共有可能な低レベル信号を利用するために、Deep Transferable Q-Network (DTQN)を提案する。
状態と行動表現空間をこれらの低レベル成分に対応する特徴部分空間に分解する。
実験において,本モデルは,成功率と対話効率の両方の観点から,ベースラインモデルより優れている。
論文 参考訳(メタデータ) (2020-06-03T23:53:06Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。