論文の概要: Personalizing Task-oriented Dialog Systems via Zero-shot Generalizable
Reward Function
- arxiv url: http://arxiv.org/abs/2303.13797v1
- Date: Fri, 24 Mar 2023 04:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:44:23.429909
- Title: Personalizing Task-oriented Dialog Systems via Zero-shot Generalizable
Reward Function
- Title(参考訳): ゼロショット一般化リワード関数によるタスク指向対話システムのパーソナライズ
- Authors: A.B. Siddique, M.H. Maqbool, Kshitija Taywade, Hassan Foroosh
- Abstract要約: タスク指向対話システムをパーソナライズするための新しいフレームワークであるP-ToDを提案する。
P-ToDは、トレーニング済みのGPT-2をバックボーンモデルとして使用し、3つのフェーズで動作する。
我々の新しい報酬関数は、見当たらないプロファイルであっても生成した応答の質を定量化できる。
- 参考スコア(独自算出の注目度): 19.652303125864204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented dialog systems enable users to accomplish tasks using natural
language. State-of-the-art systems respond to users in the same way regardless
of their personalities, although personalizing dialogues can lead to higher
levels of adoption and better user experiences. Building personalized dialog
systems is an important, yet challenging endeavor and only a handful of works
took on the challenge. Most existing works rely on supervised learning
approaches and require laborious and expensive labeled training data for each
user profile. Additionally, collecting and labeling data for each user profile
is virtually impossible. In this work, we propose a novel framework, P-ToD, to
personalize task-oriented dialog systems capable of adapting to a wide range of
user profiles in an unsupervised fashion using a zero-shot generalizable reward
function. P-ToD uses a pre-trained GPT-2 as a backbone model and works in three
phases. Phase one performs task-specific training. Phase two kicks off
unsupervised personalization by leveraging the proximal policy optimization
algorithm that performs policy gradients guided by the zero-shot generalizable
reward function. Our novel reward function can quantify the quality of the
generated responses even for unseen profiles. The optional final phase
fine-tunes the personalized model using a few labeled training examples. We
conduct extensive experimental analysis using the personalized bAbI dialogue
benchmark for five tasks and up to 180 diverse user profiles. The experimental
results demonstrate that P-ToD, even when it had access to zero labeled
examples, outperforms state-of-the-art supervised personalization models and
achieves competitive performance on BLEU and ROUGE metrics when compared to a
strong fully-supervised GPT-2 baseline
- Abstract(参考訳): タスク指向対話システムは、自然言語を使ってタスクを達成できる。
最新システムは、個性に関係なくユーザーに対して同じように反応するが、対話のパーソナライズは、より高いレベルの採用とより良いユーザーエクスペリエンスをもたらす可能性がある。
パーソナライズされたダイアログシステムの構築は重要だが、挑戦的な取り組みであり、その課題にはほんの一握りの作業しかなかった。
既存の作業の多くは教師付き学習アプローチに依存しており、各ユーザプロファイルに対して、厳格で高価なラベル付きトレーニングデータを必要とする。
さらに、各ユーザプロファイルのデータ収集とラベル付けは事実上不可能である。
本研究では、ゼロショット一般化報酬関数を用いて、広範囲のユーザプロファイルに適応可能なタスク指向対話システムを、教師なしでパーソナライズする新しいフレームワークP-ToDを提案する。
P-ToDは、トレーニング済みのGPT-2をバックボーンモデルとして使用し、3つのフェーズで動作する。
第1段階はタスク固有の訓練を行う。
フェーズ2は、ゼロショット一般化報酬関数で導かれるポリシー勾配を実行する近似ポリシー最適化アルゴリズムを活用することにより、教師なしのパーソナライゼーションを開始する。
新たな報酬機能は,未発見のプロファイルにおいても生成した応答の品質を定量化することができる。
オプションの最終フェーズは、いくつかのラベル付きトレーニング例を使用してパーソナライズされたモデルを微調整する。
パーソナライズされたbAbIダイアログベンチマークを用いて,5つのタスクと最大180種類のユーザプロファイルに対して,広範な実験分析を行う。
実験結果から,P-ToDはラベル付きサンプルがゼロであっても,最先端の教師付きパーソナライゼーションモデルより優れ,強力な完全教師付きGPT-2ベースラインと比較してBLEUおよびROUGEメトリクス上での競争性能が向上することが示された。
関連論文リスト
- TAROT: A Hierarchical Framework with Multitask Co-Pretraining on
Semi-Structured Data towards Effective Person-Job Fit [60.31175803899285]
本稿では,階層型マルチタスク協調訓練フレームワークであるTAROTを提案する。
TAROTは、プロファイルとジョブにおける半構造化テキストをターゲットにしており、取得したセマンティック情報を各レベルで制限するために、複数のきめ細かい事前訓練タスクと共に保持されている。
論文 参考訳(メタデータ) (2024-01-15T07:57:58Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - PRODIGy: a PROfile-based DIalogue Generation dataset [14.123548564209068]
コミュニケーションスタイル, 伝記, パーソナリティなど, 各対話が可能なすべての話者表現と整合する新たなリソースを提案する。
このフレームワークは、複数のプロファイル構成を持つ生成言語モデルを使用して構築されたいくつかのベースラインをテストすることができる。
論文 参考訳(メタデータ) (2023-11-09T08:19:34Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Revealing User Familiarity Bias in Task-Oriented Dialogue via
Interactive Evaluation [8.96916785542554]
我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。
我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。
我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
論文 参考訳(メタデータ) (2023-05-23T09:24:53Z) - Task-Optimized Adapters for an End-to-End Task-Oriented Dialogue System [0.0]
本稿では,タスク毎に個別に学習し,事前学習したネットワークの固定層に少数のパラメータを追加するタスク・ド・アダプタを用いたエンドツーエンドTODシステムを提案する。
提案手法はモデルに依存しない手法であり,プロンプトを使わずに入力データのみをプロンプトチューニングする必要がない。
論文 参考訳(メタデータ) (2023-05-04T00:17:49Z) - MCP: Self-supervised Pre-training for Personalized Chatbots with
Multi-level Contrastive Sampling [18.40883902610959]
個人化されたチャットボットのための対話履歴からより良い表現を抽出するための自己教師型学習フレームワークを提案する。
具体的には、ユーザダイアログ履歴に隠された教師付き信号を利用するために、対照的なサンプリング手法を適用する。
2つの実世界のデータセットに対する実験結果から,提案したモデルMPPは既存手法と比較して大幅に改善された。
論文 参考訳(メタデータ) (2022-10-17T05:16:23Z) - A Cooperative Memory Network for Personalized Task-oriented Dialogue
Systems with Incomplete User Profiles [55.951126447217526]
ユーザプロファイルの完成を前提とせず,タスク指向対話システムについて検討する。
ユーザプロファイルを徐々に強化する新しいメカニズムを持つ協調記憶ネットワーク(CoMemNN)を提案する。
CoMemNNは、ユーザープロファイルを効果的に強化することができ、応答選択精度の点で3.6%の改善につながります。
論文 参考訳(メタデータ) (2021-02-16T18:05:54Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - A Neural Topical Expansion Framework for Unstructured Persona-oriented
Dialogue Generation [52.743311026230714]
Persona Exploration and Exploitation (PEE)は、事前に定義されたユーザペルソナ記述を意味論的に相関したコンテンツで拡張することができる。
PEEはペルソナ探索とペルソナ搾取という2つの主要なモジュールで構成されている。
提案手法は, 自動評価と人的評価の両面で, 最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-06T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。