論文の概要: Deep Reinforcement Learning for On-line Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2009.10321v1
- Date: Tue, 22 Sep 2020 05:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:26:13.113826
- Title: Deep Reinforcement Learning for On-line Dialogue State Tracking
- Title(参考訳): オンライン対話状態追跡のための深層強化学習
- Authors: Zhi Chen, Lu Chen, Xiang Zhou and Kai Yu
- Abstract要約: 対話状態追跡(DST)は対話管理において重要なモジュールである。
本稿では,オンラインDST最適化のための協調学習フレームワークを提案する。
DSTとポリシーの併用トレーニングにより、パフォーマンスがさらに向上する。
- 参考スコア(独自算出の注目度): 32.37901619395698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue state tracking (DST) is a crucial module in dialogue management. It
is usually cast as a supervised training problem, which is not convenient for
on-line optimization. In this paper, a novel companion teaching based deep
reinforcement learning (DRL) framework for on-line DST optimization is
proposed. To the best of our knowledge, this is the first effort to optimize
the DST module within DRL framework for on-line task-oriented spoken dialogue
systems. In addition, dialogue policy can be further jointly updated.
Experiments show that on-line DST optimization can effectively improve the
dialogue manager performance while keeping the flexibility of using predefined
policy. Joint training of both DST and policy can further improve the
performance.
- Abstract(参考訳): 対話状態追跡(DST)は対話管理において重要なモジュールである。
通常は教師付きトレーニング問題として扱われるが、オンライン最適化には向いていない。
本稿では,オンラインdst最適化のための新しいコンパニオン学習型深層強化学習(drl)フレームワークを提案する。
我々の知る限りでは、オンラインタスク指向音声対話システムのためのDRLフレームワーク内でDSTモジュールを最適化する最初の試みである。
さらに、対話ポリシーをさらに共同で更新することができる。
実験により、オンラインDST最適化は、事前定義されたポリシーの使用の柔軟性を維持しながら、対話マネージャのパフォーマンスを効果的に向上できることが示された。
DSTとポリシーの併用トレーニングにより、パフォーマンスがさらに向上する。
関連論文リスト
- Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Turn-Level Active Learning for Dialogue State Tracking [44.752369492979064]
対話状態追跡(DST)はタスク指向対話システムにおいて重要な役割を果たす。
そこで我々はDSTのための新しいターンレベルアクティブラーニングフレームワークを提案し,対話中のターンをアノテートするために積極的に選択する。
論文 参考訳(メタデータ) (2023-10-23T02:53:46Z) - Dialog Action-Aware Transformer for Dialog Policy Learning [22.262659702998892]
本稿では,RLエージェントの学習速度を高速化するために,事前学習言語モデルからプレーンテキスト知識をフル活用することを提案する。
具体的には,ダイアログアクション対応トランスフォーマーエンコーダ(DaTrans)を設計し,マスクされた最後のアクションタスクと呼ばれる新しい微調整手順を統合する。
DaTransはさらに、継続的な相互作用を伴うRL環境で最適化され、長期蓄積された報酬を最大化するためにダイアログアクション空間での探索を通じて進化する。
論文 参考訳(メタデータ) (2023-09-05T13:47:25Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Distributed Structured Actor-Critic Reinforcement Learning for Universal
Dialogue Management [29.57382819573169]
我々は,ユーザに対応する対話行動を選択するポリシーの策定に重点を置いている。
逐次的なシステム決定プロセスは、部分的に観察可能なマルコフ決定プロセスに抽象化することができる。
過去数年間、ニューラルネットワーク(NN)を関数近似器として利用するディープ強化学習(DRL)アルゴリズムが数多く存在する。
論文 参考訳(メタデータ) (2020-09-22T05:39:31Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - A Survey on Dialog Management: Recent Advances and Challenges [72.52920723074638]
ダイアログ管理(DM)はタスク指向ダイアログシステムにおいて重要なコンポーネントである。
1)新しいシナリオにおけるダイアログシステムモデリングを容易にするためのモデルスケーラビリティの改善,(2)ダイアログポリシー学習におけるデータ不足問題への対処,(3)タスク補完性能を向上させるためのトレーニング効率の向上。
論文 参考訳(メタデータ) (2020-05-05T14:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。