論文の概要: Personalizing Task-oriented Dialog Systems via Zero-shot Generalizable
Reward Function
- arxiv url: http://arxiv.org/abs/2303.13797v1
- Date: Fri, 24 Mar 2023 04:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:44:23.429909
- Title: Personalizing Task-oriented Dialog Systems via Zero-shot Generalizable
Reward Function
- Title(参考訳): ゼロショット一般化リワード関数によるタスク指向対話システムのパーソナライズ
- Authors: A.B. Siddique, M.H. Maqbool, Kshitija Taywade, Hassan Foroosh
- Abstract要約: タスク指向対話システムをパーソナライズするための新しいフレームワークであるP-ToDを提案する。
P-ToDは、トレーニング済みのGPT-2をバックボーンモデルとして使用し、3つのフェーズで動作する。
我々の新しい報酬関数は、見当たらないプロファイルであっても生成した応答の質を定量化できる。
- 参考スコア(独自算出の注目度): 19.652303125864204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented dialog systems enable users to accomplish tasks using natural
language. State-of-the-art systems respond to users in the same way regardless
of their personalities, although personalizing dialogues can lead to higher
levels of adoption and better user experiences. Building personalized dialog
systems is an important, yet challenging endeavor and only a handful of works
took on the challenge. Most existing works rely on supervised learning
approaches and require laborious and expensive labeled training data for each
user profile. Additionally, collecting and labeling data for each user profile
is virtually impossible. In this work, we propose a novel framework, P-ToD, to
personalize task-oriented dialog systems capable of adapting to a wide range of
user profiles in an unsupervised fashion using a zero-shot generalizable reward
function. P-ToD uses a pre-trained GPT-2 as a backbone model and works in three
phases. Phase one performs task-specific training. Phase two kicks off
unsupervised personalization by leveraging the proximal policy optimization
algorithm that performs policy gradients guided by the zero-shot generalizable
reward function. Our novel reward function can quantify the quality of the
generated responses even for unseen profiles. The optional final phase
fine-tunes the personalized model using a few labeled training examples. We
conduct extensive experimental analysis using the personalized bAbI dialogue
benchmark for five tasks and up to 180 diverse user profiles. The experimental
results demonstrate that P-ToD, even when it had access to zero labeled
examples, outperforms state-of-the-art supervised personalization models and
achieves competitive performance on BLEU and ROUGE metrics when compared to a
strong fully-supervised GPT-2 baseline
- Abstract(参考訳): タスク指向対話システムは、自然言語を使ってタスクを達成できる。
最新システムは、個性に関係なくユーザーに対して同じように反応するが、対話のパーソナライズは、より高いレベルの採用とより良いユーザーエクスペリエンスをもたらす可能性がある。
パーソナライズされたダイアログシステムの構築は重要だが、挑戦的な取り組みであり、その課題にはほんの一握りの作業しかなかった。
既存の作業の多くは教師付き学習アプローチに依存しており、各ユーザプロファイルに対して、厳格で高価なラベル付きトレーニングデータを必要とする。
さらに、各ユーザプロファイルのデータ収集とラベル付けは事実上不可能である。
本研究では、ゼロショット一般化報酬関数を用いて、広範囲のユーザプロファイルに適応可能なタスク指向対話システムを、教師なしでパーソナライズする新しいフレームワークP-ToDを提案する。
P-ToDは、トレーニング済みのGPT-2をバックボーンモデルとして使用し、3つのフェーズで動作する。
第1段階はタスク固有の訓練を行う。
フェーズ2は、ゼロショット一般化報酬関数で導かれるポリシー勾配を実行する近似ポリシー最適化アルゴリズムを活用することにより、教師なしのパーソナライゼーションを開始する。
新たな報酬機能は,未発見のプロファイルにおいても生成した応答の品質を定量化することができる。
オプションの最終フェーズは、いくつかのラベル付きトレーニング例を使用してパーソナライズされたモデルを微調整する。
パーソナライズされたbAbIダイアログベンチマークを用いて,5つのタスクと最大180種類のユーザプロファイルに対して,広範な実験分析を行う。
実験結果から,P-ToDはラベル付きサンプルがゼロであっても,最先端の教師付きパーソナライゼーションモデルより優れ,強力な完全教師付きGPT-2ベースラインと比較してBLEUおよびROUGEメトリクス上での競争性能が向上することが示された。
関連論文リスト
- Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。
この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。
我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:46:53Z) - PEFT-U: Parameter-Efficient Fine-Tuning for User Personalization [9.594958534074074]
ユーザパーソナライズのためのNLPモデルの構築と評価のための新しいデータセットであるPEFT-Uベンチマークを紹介する。
多様なユーザ中心タスクのコンテキストにおいて、LLMを効率よくパーソナライズし、ユーザ固有の嗜好に適合させるという課題について検討する。
論文 参考訳(メタデータ) (2024-07-25T14:36:18Z) - Step-Back Profiling: Distilling User History for Personalized Scientific Writing [50.481041470669766]
大きな言語モデル(LLM)は、さまざまな自然言語処理タスクに優れていますが、個人向けにパーソナライズされたコンテンツを生成するのに苦労しています。
ユーザ履歴を簡潔なプロファイルに抽出することで,LSMをパーソナライズするためのSTEP-BACK ProFIlingを導入する。
本手法は,一般パーソナライゼーションベンチマークにおいて,ベースラインを最大3.6ポイント向上させる。
論文 参考訳(メタデータ) (2024-06-20T12:58:26Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - Personalized Language Modeling from Personalized Human Feedback [49.344833339240566]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせて大きな言語モデルを微調整するために一般的に用いられる。
本研究では,パーソナライズされた言語モデルを構築する手法を開発することにより,この問題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation [17.41434948048325]
我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。
我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。
我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
論文 参考訳(メタデータ) (2023-05-23T09:24:53Z) - Task-Optimized Adapters for an End-to-End Task-Oriented Dialogue System [0.0]
本稿では,タスク毎に個別に学習し,事前学習したネットワークの固定層に少数のパラメータを追加するタスク・ド・アダプタを用いたエンドツーエンドTODシステムを提案する。
提案手法はモデルに依存しない手法であり,プロンプトを使わずに入力データのみをプロンプトチューニングする必要がない。
論文 参考訳(メタデータ) (2023-05-04T00:17:49Z) - MCP: Self-supervised Pre-training for Personalized Chatbots with
Multi-level Contrastive Sampling [18.40883902610959]
個人化されたチャットボットのための対話履歴からより良い表現を抽出するための自己教師型学習フレームワークを提案する。
具体的には、ユーザダイアログ履歴に隠された教師付き信号を利用するために、対照的なサンプリング手法を適用する。
2つの実世界のデータセットに対する実験結果から,提案したモデルMPPは既存手法と比較して大幅に改善された。
論文 参考訳(メタデータ) (2022-10-17T05:16:23Z) - A Cooperative Memory Network for Personalized Task-oriented Dialogue
Systems with Incomplete User Profiles [55.951126447217526]
ユーザプロファイルの完成を前提とせず,タスク指向対話システムについて検討する。
ユーザプロファイルを徐々に強化する新しいメカニズムを持つ協調記憶ネットワーク(CoMemNN)を提案する。
CoMemNNは、ユーザープロファイルを効果的に強化することができ、応答選択精度の点で3.6%の改善につながります。
論文 参考訳(メタデータ) (2021-02-16T18:05:54Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。