論文の概要: Improving Multi-Domain Task-Oriented Dialogue System with Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.05340v1
- Date: Fri, 08 Nov 2024 05:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:56.653111
- Title: Improving Multi-Domain Task-Oriented Dialogue System with Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習によるマルチドメインタスク指向対話システムの改良
- Authors: Dharmendra Prajapat, Durga Toshniwal,
- Abstract要約: タスク指向対話(TOD)システムは、対話を通じてユーザ定義タスクを達成するように設計されている。
本稿では,統合事前学習型言語モデルであるGPT2をベースモデルとして利用するTODシステムを提案する。
本モデルでは, ベースラインと比較して情報提供率を1.60%, 成功率を3.17%向上させる。
- 参考スコア(独自算出の注目度): 5.18578230548982
- License:
- Abstract: Task-oriented dialogue (TOD) system is designed to accomplish user-defined tasks through dialogues. The TOD system has progressed towards end-to-end modeling by leveraging pre-trained large language models. Fine-tuning the pre-trained language models using only supervised learning leads to the exposure bias and token loss problem and it deviates the models from completing the user's task. To address these issues, we propose a TOD system that leverages a unified pre-trained language model, GPT2, as a base model. It is optimized using supervised learning and reinforcement learning (RL). The issues in the TOD system are mitigated using a non-differentiable reward function. The reward is calculated using the weighted sum of the success rate and BLEU evaluation metrics. The success rate and BLEU metrics in reward calculation guide the language model for user task completion while ensuring a coherent and fluent response. Our model is acquired by fine-tuning a pre-trained model on the dialogue-session level which comprises user utterance, belief state, system act, and system response. Experimental results on MultiWOZ2.1 demonstrate that our model increases the inform rate by 1.60% and the success rate by 3.17% compared to the baseline.
- Abstract(参考訳): タスク指向対話(TOD)システムは、対話を通じてユーザ定義タスクを達成するように設計されている。
TODシステムは、事前訓練された大規模言語モデルを活用することで、エンドツーエンドのモデリングへと発展してきた。
教師付き学習のみを用いた事前学習言語モデルの微調整は、露出バイアスとトークン損失の問題につながる。
これらの問題に対処するため,本研究では,統合事前学習型言語モデルであるGPT2をベースモデルとして活用するTODシステムを提案する。
教師付き学習と強化学習(RL)を用いて最適化されている。
TODシステムの問題は、微分不能報酬関数を用いて緩和される。
報酬は、成功率とBLEU評価指標の重み付け和を用いて算出される。
報酬計算における成功率とBLEUメトリクスは、一貫性と流動性を確保しつつ、ユーザタスク完了のための言語モデルをガイドする。
本モデルは,ユーザの発話,信念状態,システム行動,システム応答を含む対話セッションレベルで,事前学習されたモデルを微調整することによって得られる。
また,MultiWOZ2.1の実験結果から,本モデルはベースラインに比べて1.60%,成功率3.17%向上することが示された。
関連論文リスト
- Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - Pre-Trained Language-Meaning Models for Multilingual Parsing and
Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T19:00:33Z) - Discovering Customer-Service Dialog System with Semi-Supervised Learning
and Coarse-to-Fine Intent Detection [6.869753194843482]
タスク指向ダイアログは,マルチターン会話による特定の目標達成を支援することを目的としている。
教師/学生のパラダイムに基づいた弱教師付きデータセットを構築した。
また,ユーザ意図を検出するために,モジュール型対話システムと粗粒度分類を統合した。
論文 参考訳(メタデータ) (2022-12-23T14:36:43Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - A Comparative Study on Language Models for Task-Oriented Dialogue
Systems [14.634286037008017]
タスク指向対話(ToD)システムでは、言語モデルを使ってエンドツーエンドのトレーニングを行うことができる。
BARTとT5は、BLEUとF1でGPTベースのモデルより優れ、ToDシステムで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-21T13:24:25Z) - Self-training Improves Pre-training for Few-shot Learning in
Task-oriented Dialog Systems [47.937191088981436]
大規模事前訓練型言語モデルでは、ToDで数発の学習を行う上で有望な結果が示されている。
本稿では,より強力な学生モデルを訓練するために,最も自信のないラベル付きデータを反復的にラベル付けする自己学習手法を提案する。
目的分類,ダイアログ状態追跡,ダイアログアクト予測,応答選択など,ToDの4つの下流タスクに関する実験と分析を行った。
論文 参考訳(メタデータ) (2021-08-28T07:22:06Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine
Teaching [81.45928589522032]
トランスフォーマーに基づく自動回帰言語モデルを用いて,モジュール型タスク指向対話システムをパラメータ化する。
タスクグラウンド応答生成モデルである異種ダイアログコーパスの事前学習を行う。
実験により、SOLOISTは、よく研究されたタスク指向のダイアログベンチマーク上で、新しい最先端のダイアログを生成する。
論文 参考訳(メタデータ) (2020-05-11T17:58:34Z) - A Tailored Pre-Training Model for Task-Oriented Dialog Generation [60.05269529832447]
タスク指向対話システムのための事前訓練された役割交替言語モデル(PRAL)を提案する。
13個の既存のデータセットをクリーニングすることでタスク指向の対話事前学習データセットを導入する。
その結果,PRALは最先端の手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-04-24T09:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。