論文の概要: Post-processing Networks: Method for Optimizing Pipeline Task-oriented
Dialogue Systems using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.12185v1
- Date: Mon, 25 Jul 2022 13:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:17:16.885531
- Title: Post-processing Networks: Method for Optimizing Pipeline Task-oriented
Dialogue Systems using Reinforcement Learning
- Title(参考訳): ポストプロセッシングネットワーク:強化学習を用いたパイプラインタスク指向対話システムの最適化手法
- Authors: Atsumoto Ohashi, Ryuichiro Higashinaka
- Abstract要約: 本稿では,対話性能向上のための任意の手法で実装されたモジュールからなるパイプラインシステムを最適化する手法を提案する。
本手法では,各モジュールの出力を後処理するシステム内に,後処理ネットワーク(PPN)と呼ばれるニューラルネットワークコンポーネントを設置する。
全てのPPNは、強化学習を用いてシステム全体の対話性能を改善するために更新される。
- 参考スコア(独自算出の注目度): 2.421451893574618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many studies have proposed methods for optimizing the dialogue performance of
an entire pipeline task-oriented dialogue system by jointly training modules in
the system using reinforcement learning. However, these methods are limited in
that they can only be applied to modules implemented using trainable
neural-based methods. To solve this problem, we propose a method for optimizing
a pipeline system composed of modules implemented with arbitrary methods for
dialogue performance. With our method, neural-based components called
post-processing networks (PPNs) are installed inside such a system to
post-process the output of each module. All PPNs are updated to improve the
overall dialogue performance of the system by using reinforcement learning, not
necessitating each module to be differentiable. Through dialogue simulation and
human evaluation on the MultiWOZ dataset, we show that our method can improve
the dialogue performance of pipeline systems consisting of various modules.
- Abstract(参考訳): 多くの研究が強化学習を用いてシステム内のモジュールを協調訓練することにより、パイプラインタスク指向対話システム全体の対話性能を最適化する方法を提案している。
しかしながら、これらの方法は、学習可能なニューラルネットワークメソッドを使用して実装されたモジュールにのみ適用できるという点で制限されている。
そこで本研究では,対話性能のための任意の手法で実装されたモジュールからなるパイプラインシステムを最適化する手法を提案する。
本手法では,各モジュールの出力を後処理するシステム内に,後処理ネットワーク(PPN)と呼ばれるニューラルネットワークコンポーネントを設置する。
全てのPPNは強化学習を用いてシステム全体の対話性能を改善するために更新される。
本研究では,マルチウォズデータセットの対話シミュレーションとヒューマン評価を通じて,様々なモジュールからなるパイプラインシステムの対話性能を向上させることができることを示す。
関連論文リスト
- Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。
その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。
その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文 参考訳(メタデータ) (2024-08-16T23:57:29Z) - OntoChatGPT Information System: Ontology-Driven Structured Prompts for
ChatGPT Meta-Learning [19.444636864515726]
本研究は,ChatGPTと相互作用するオントロジー駆動型構造化プロンプトシステムを利用するための包括的方法論を提案する。
得られた生産的3つのトライアドは、方法論の基礎、高度な情報技術、OntoChatGPTシステムから構成される。
論文 参考訳(メタデータ) (2023-07-11T07:31:58Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Retrieve & Memorize: Dialog Policy Learning with Multi-Action Memory [13.469140432108151]
本稿では,システム行動の学習を促進するための検索・記憶フレームワークを提案する。
メモリ拡張型マルチデコーダネットワークを用いて、候補動作に条件付きシステム動作を生成する。
本手法は,コンテキスト・ツー・レスポンス生成タスクにおける最先端モデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T07:53:56Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine
Teaching [81.45928589522032]
トランスフォーマーに基づく自動回帰言語モデルを用いて,モジュール型タスク指向対話システムをパラメータ化する。
タスクグラウンド応答生成モデルである異種ダイアログコーパスの事前学習を行う。
実験により、SOLOISTは、よく研究されたタスク指向のダイアログベンチマーク上で、新しい最先端のダイアログを生成する。
論文 参考訳(メタデータ) (2020-05-11T17:58:34Z) - Show Us the Way: Learning to Manage Dialog from Demonstrations [20.770386771370347]
本稿では,第8回ダイアログ・システム・チャレンジにおけるエンド・ツー・エンドマルチドメイン・ダイアログ・チャレンジ・トラックについて紹介する。
提案するダイアログシステムは,自然言語理解,対話状態追跡,対話管理,自然言語生成などの異なるコンポーネントを備えたパイプラインアーキテクチャを採用している。
システムの中心となるのは,Demonstrations からの深層Q-learning を用いて,専門家の助けを借りてダイアログポリシーを学習する強化学習アルゴリズムである。
論文 参考訳(メタデータ) (2020-04-17T08:41:54Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。