論文の概要: Integrating Pretrained Language Model for Dialogue Policy Learning
- arxiv url: http://arxiv.org/abs/2111.01398v1
- Date: Tue, 2 Nov 2021 07:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 12:42:02.066822
- Title: Integrating Pretrained Language Model for Dialogue Policy Learning
- Title(参考訳): 対話政策学習のための事前学習言語モデルの統合
- Authors: Hongru Wang, Huimin Wang, Zezhong Wang, Kam-Fai Wong
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ユーザからの報酬の蓄積を最大化するための対話政策エージェントを訓練する可能性として目撃されている。
1) 事前学習した言語モデルを識別器として統合し、現在のシステム動作が最終ユーザ動作に十分であるかどうかを判断する。
実験結果から,本手法は対話システムの完全率 (4.4%) と成功率 (8.0%) を有意に向上させることが示された。
- 参考スコア(独自算出の注目度): 23.453017883791237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) has been witnessed its potential for training a
dialogue policy agent towards maximizing the accumulated rewards given from
users. However, the reward can be very sparse for it is usually only provided
at the end of a dialog session, which causes unaffordable interaction
requirements for an acceptable dialog agent. Distinguished from many efforts
dedicated to optimizing the policy and recovering the reward alternatively
which suffers from easily getting stuck in local optima and model collapse, we
decompose the adversarial training into two steps: 1) we integrate a
pre-trained language model as a discriminator to judge whether the current
system action is good enough for the last user action (i.e., \textit{next
action prediction}); 2) the discriminator gives and extra local dense reward to
guide the agent's exploration. The experimental result demonstrates that our
method significantly improves the complete rate (~4.4\%) and success rate
(~8.0\%) of the dialogue system.
- Abstract(参考訳): 強化学習(rl)は、ユーザーからの報酬の蓄積を最大化するために対話政策エージェントを訓練する可能性を持っている。
しかし、その報酬は、通常、ダイアログセッションの終わりにのみ提供されるため、受け入れられるダイアログエージェントに対する望ましくないインタラクション要求を引き起こすため、非常にスパースである。
政策の最適化や報酬の回収に費やした多くの努力と違い、局所的な視認性やモデル崩壊に苦しむ代わりに、敵対的なトレーニングを2つのステップに分解する。
1) 事前学習された言語モデルを判別器として統合し, 現行のシステム動作が最後のユーザ動作に十分であるかどうかを判断する(すなわち, \textit{next action prediction})。
2 差別者は、エージェントの探索を指導するために、余分な局地的な報酬を与える。
実験の結果,本手法は対話システムの完全率 (~4.4\%) と成功率 (~8.0\%) を有意に改善することが示された。
関連論文リスト
- Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - What Does The User Want? Information Gain for Hierarchical Dialogue
Policy Optimisation [3.1433893853959605]
強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。
本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-15T07:21:26Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - Imperfect also Deserves Reward: Multi-Level and Sequential Reward
Modeling for Better Dialog Management [17.168214640974337]
タスク指向ダイアログシステムでは、強化学習ベースのダイアログ管理モジュールのトレーニングは、rlのスパース報酬によるサンプル効率の低下と収束速度の低下に苦しむ。
我々は,報酬をドメイン,アクタ,スロットという3レベル階層に分解する多段階報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-10T12:20:23Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Semi-Supervised Dialogue Policy Learning via Stochastic Reward
Estimation [33.688270031454095]
我々は、ターンバイターンの報酬を提供するための最適なポリシーのステートアクションペアから学ぶために報酬学習を導入する。
このアプローチには、人間対人間対話の完全なステートアクションアノテーションが必要である。
半教師付き政策学習のための新たな報酬学習手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T06:28:44Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。