論文の概要: High-Quality Diversification for Task-Oriented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2106.00891v1
- Date: Wed, 2 Jun 2021 02:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:26:40.827370
- Title: High-Quality Diversification for Task-Oriented Dialogue Systems
- Title(参考訳): タスク指向対話システムの高品質多様化
- Authors: Zhiwen Tang, Hrishikesh Kulkarni, Grace Hui Yang
- Abstract要約: 多様な対話路を持つDRLエージェントの訓練は、稀なユーザ要求や目に見えない状況に備える。
1つの効果的な多様化方法は、エージェントが多様な学習されたユーザーモデルと対話できるようにすることである。
シミュレータで訓練されたタスク指向対話システムのための新しい対話多様化手法を提案する。
- 参考スコア(独自算出の注目度): 18.455916009255485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many task-oriented dialogue systems use deep reinforcement learning (DRL) to
learn policies that respond to the user appropriately and complete the tasks
successfully. Training DRL agents with diverse dialogue trajectories prepare
them well for rare user requests and unseen situations. One effective
diversification method is to let the agent interact with a diverse set of
learned user models. However, trajectories created by these artificial user
models may contain generation errors, which can quickly propagate into the
agent's policy. It is thus important to control the quality of the
diversification and resist the noise. In this paper, we propose a novel
dialogue diversification method for task-oriented dialogue systems trained in
simulators. Our method, Intermittent Short Extension Ensemble (I-SEE),
constrains the intensity to interact with an ensemble of diverse user models
and effectively controls the quality of the diversification. Evaluations on the
Multiwoz dataset show that I-SEE successfully boosts the performance of several
state-of-the-art DRL dialogue agents.
- Abstract(参考訳): 多くのタスク指向対話システムは、ユーザに対して適切に応答するポリシーを学習し、タスクを成功させるために、深層強化学習(DRL)を使用している。
多様な対話路を持つDRLエージェントの訓練は、稀なユーザ要求や目に見えない状況に備える。
1つの効果的な多様化方法は、エージェントが多様な学習されたユーザーモデルと対話できるようにすることである。
しかし、これらの人工ユーザモデルによって作成された軌跡には生成エラーが含まれ、エージェントのポリシーに素早く伝播する可能性がある。
したがって、多様化の質を制御し、騒音に抵抗することが重要である。
本稿では,シミュレータで訓練されたタスク指向対話システムのための新しい対話多様化手法を提案する。
I-SEE(Intermittent Short Extension Ensemble)は,多様なユーザモデルのアンサンブルと相互作用する強度を制約し,多様化の質を効果的に制御する手法である。
Multiwozデータセットの評価から、I-SEEはいくつかの最先端DRL対話エージェントの性能を高めることに成功した。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Dialog Action-Aware Transformer for Dialog Policy Learning [22.262659702998892]
本稿では,RLエージェントの学習速度を高速化するために,事前学習言語モデルからプレーンテキスト知識をフル活用することを提案する。
具体的には,ダイアログアクション対応トランスフォーマーエンコーダ(DaTrans)を設計し,マスクされた最後のアクションタスクと呼ばれる新しい微調整手順を統合する。
DaTransはさらに、継続的な相互作用を伴うRL環境で最適化され、長期蓄積された報酬を最大化するためにダイアログアクション空間での探索を通じて進化する。
論文 参考訳(メタデータ) (2023-09-05T13:47:25Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management [36.254564021059515]
強化学習(Reinforcement Learning, RL)は, 筋力のない対話管理(DM)エージェントを開発する上で大きな期待を抱いている。
我々は,近年のMixture-of-Expert Language Models(MoE-LMs)を活用した対話計画のための多種多様なRLアルゴリズムを開発した。
提案手法は,MoE-LM構造を利用して,アクション空間のサイズを大幅に削減し,RLベースのDMの有効性を向上する。
論文 参考訳(メタデータ) (2023-02-21T18:02:20Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Dialogue Strategy Adaptation to New Action Sets Using Multi-dimensional
Modelling [15.575400480417844]
統計的音声対話システムを構築する上での大きなボトルネックは、大量のトレーニングデータを必要とすることである。
対話管理における多次元的アプローチを採用し,伝達学習の可能性を評価する。
具体的には、トレーニング済みのタスク非依存ポリシーを利用して、拡張されたタスク固有のアクションセットのトレーニングを高速化する。
論文 参考訳(メタデータ) (2022-04-14T16:26:22Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。