論文の概要: Learning from Relevant Subgoals in Successful Dialogs using Iterative Training for Task-oriented Dialog Systems
- arxiv url: http://arxiv.org/abs/2411.16305v1
- Date: Mon, 25 Nov 2024 11:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:44.978527
- Title: Learning from Relevant Subgoals in Successful Dialogs using Iterative Training for Task-oriented Dialog Systems
- Title(参考訳): タスク指向ダイアログシステムにおける反復学習を用いたダイアログの関連部分からの学習
- Authors: Magdalena Kaiser, Patrick Ernst, György Szarvas,
- Abstract要約: タスク指向ダイアログ(ToD)システムは、ユーザ目標を達成するために複数のサブゴールを解決しなければならないが、フィードバックはダイアログの最後にのみ取得されることが多い。
ToDシステムを改善するための反復的トレーニング手法であるSuIT(subgoal-aware ITerative Training)を提案する。
- 参考スコア(独自算出の注目度): 6.226609932118126
- License:
- Abstract: Task-oriented Dialog (ToD) systems have to solve multiple subgoals to accomplish user goals, whereas feedback is often obtained only at the end of the dialog. In this work, we propose SUIT (SUbgoal-aware ITerative Training), an iterative training approach for improving ToD systems. We sample dialogs from the model we aim to improve and determine subgoals that contribute to dialog success using distant supervision to obtain high quality training samples. We show how this data improves supervised fine-tuning or, alternatively, preference learning results. SUIT is able to iteratively generate more data instead of relying on fixed static sets. SUIT reaches new state-of-the-art performance on a popular ToD benchmark.
- Abstract(参考訳): タスク指向ダイアログ(ToD)システムは、ユーザ目標を達成するために複数のサブゴールを解決しなければならないが、フィードバックはダイアログの最後にのみ取得されることが多い。
本研究では,TODシステムを改善するための反復的トレーニング手法であるSUIT(SUbgoal-Aware ITerative Training)を提案する。
本研究は,高品質なトレーニングサンプルを得るために,遠隔監視を用いてダイアログの成功に寄与するサブゴールを改良し,決定することを目的としたモデルからのダイアログをサンプリングする。
このデータがどのように教師付き微調整や選好学習の結果を改善するかを示す。
SUITは、固定された静的セットに頼るのではなく、反復的により多くのデータを生成することができる。
SUITは人気のToDベンチマークで最先端のパフォーマンスに到達した。
関連論文リスト
- Improving Multi-Domain Task-Oriented Dialogue System with Offline Reinforcement Learning [5.18578230548982]
タスク指向対話(TOD)システムは、対話を通じてユーザ定義タスクを達成するように設計されている。
本稿では,統合事前学習型言語モデルであるGPT2をベースモデルとして利用するTODシステムを提案する。
本モデルでは, ベースラインと比較して情報提供率を1.60%, 成功率を3.17%向上させる。
論文 参考訳(メタデータ) (2024-11-08T05:43:40Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - Discovering Customer-Service Dialog System with Semi-Supervised Learning
and Coarse-to-Fine Intent Detection [6.869753194843482]
タスク指向ダイアログは,マルチターン会話による特定の目標達成を支援することを目的としている。
教師/学生のパラダイムに基づいた弱教師付きデータセットを構築した。
また,ユーザ意図を検出するために,モジュール型対話システムと粗粒度分類を統合した。
論文 参考訳(メタデータ) (2022-12-23T14:36:43Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z) - Self-training Improves Pre-training for Few-shot Learning in
Task-oriented Dialog Systems [47.937191088981436]
大規模事前訓練型言語モデルでは、ToDで数発の学習を行う上で有望な結果が示されている。
本稿では,より強力な学生モデルを訓練するために,最も自信のないラベル付きデータを反復的にラベル付けする自己学習手法を提案する。
目的分類,ダイアログ状態追跡,ダイアログアクト予測,応答選択など,ToDの4つの下流タスクに関する実験と分析を行った。
論文 参考訳(メタデータ) (2021-08-28T07:22:06Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine
Teaching [81.45928589522032]
トランスフォーマーに基づく自動回帰言語モデルを用いて,モジュール型タスク指向対話システムをパラメータ化する。
タスクグラウンド応答生成モデルである異種ダイアログコーパスの事前学習を行う。
実験により、SOLOISTは、よく研究されたタスク指向のダイアログベンチマーク上で、新しい最先端のダイアログを生成する。
論文 参考訳(メタデータ) (2020-05-11T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。