論文の概要: MCP: Self-supervised Pre-training for Personalized Chatbots with
Multi-level Contrastive Sampling
- arxiv url: http://arxiv.org/abs/2210.08753v2
- Date: Wed, 19 Oct 2022 15:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:23:04.190045
- Title: MCP: Self-supervised Pre-training for Personalized Chatbots with
Multi-level Contrastive Sampling
- Title(参考訳): MCP:マルチレベルコントラストサンプリングによる個人化チャットボットの自己指導型事前学習
- Authors: Zhaoheng Huang, Zhicheng Dou, Yutao Zhu and Zhengyi Ma
- Abstract要約: 個人化されたチャットボットのための対話履歴からより良い表現を抽出するための自己教師型学習フレームワークを提案する。
具体的には、ユーザダイアログ履歴に隠された教師付き信号を利用するために、対照的なサンプリング手法を適用する。
2つの実世界のデータセットに対する実験結果から,提案したモデルMPPは既存手法と比較して大幅に改善された。
- 参考スコア(独自算出の注目度): 18.40883902610959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized chatbots focus on endowing the chatbots with a consistent
personality to behave like real users and further act as personal assistants.
Previous studies have explored generating implicit user profiles from the
user's dialogue history for building personalized chatbots. However, these
studies only use the response generation loss to train the entire model, thus
it is prone to suffer from the problem of data sparsity. Besides, they
overemphasize the final generated response's quality while ignoring the
correlations and fusions between the user's dialogue history, leading to rough
data representations and performance degradation. To tackle these problems, we
propose a self-supervised learning framework MCP for capturing better
representations from users' dialogue history for personalized chatbots.
Specifically, we apply contrastive sampling methods to leverage the supervised
signals hidden in user dialog history, and generate the pre-training samples
for enhancing the model. We design three pre-training tasks based on three
types of contrastive pairs from user dialogue history, namely response pairs,
sequence augmentation pairs, and user pairs. We pre-train the utterance encoder
and the history encoder towards the contrastive objectives and use these
pre-trained encoders for generating user profiles while personalized response
generation. Experimental results on two real-world datasets show a significant
improvement in our proposed model MCP compared with the existing methods.
- Abstract(参考訳): パーソナライズされたチャットボットは、チャットボットを本物のユーザーのように振る舞う一貫したパーソナリティで囲み込み、さらにパーソナルアシスタントとして振る舞うことに焦点を当てている。
これまでの研究は、パーソナライズされたチャットボットを構築するために、ユーザの対話履歴から暗黙のユーザプロファイルを生成することを模索してきた。
しかしながら、これらの研究はモデル全体のトレーニングに応答生成損失のみを使用するため、データのスパーシティの問題に苦しむ傾向にある。
さらに、ユーザの対話履歴間の相関や融合を無視しながら、最終的な応答の品質を過度に強調し、粗いデータ表現とパフォーマンス劣化につながる。
これらの課題に対処するために,個人化されたチャットボットのための対話履歴からより良い表現を抽出するための自己教師付き学習フレームワーク MCP を提案する。
具体的には、ユーザのダイアログ履歴に隠された教師付き信号を活用するために対比サンプリング法を適用し、モデルの強化のために事前学習サンプルを生成する。
ユーザ対話履歴,すなわち応答ペア,シーケンス拡張ペア,ユーザペアの3種類のコントラストペアに基づいて,事前学習タスクを設計する。
我々は、発話エンコーダと履歴エンコーダを比較対象に向けて事前訓練し、これらの事前学習エンコーダを用いて、パーソナライズされた応答生成を行う。
2つの実世界のデータセットに対する実験結果から,提案したモデルMPPは既存手法と比較して大幅に改善された。
関連論文リスト
- RECAP: Retrieval-Enhanced Context-Aware Prefix Encoder for Personalized
Dialogue Response Generation [30.245143345565758]
パーソナライズされた応答生成のための検索強化手法を提案する。
対話ドメインデータに基づいて訓練された階層型トランスフォーマーを設計し、パーソナライズされた検索を行うとともに、検索した情報をデコーダに効率的に融合するコンテキスト対応プレフィックスエンコーダを設計する。
人的および自動メトリクスの組でモデルの性能を定量的に評価し、英語のReddit会話における最先端のベースラインよりも優れていると判断した。
論文 参考訳(メタデータ) (2023-06-12T16:10:21Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Less is More: Learning to Refine Dialogue History for Personalized
Dialogue Generation [57.73547958927826]
我々は,対話履歴をより多く処理し,より正確なペルソナ情報を得ることのできる,ユーザ対話履歴を大規模に洗練することを提案する。
具体的には、3つの個人情報精算器とパーソナライズされた応答生成器で構成されるMSPモデルを設計する。
論文 参考訳(メタデータ) (2022-04-18T02:02:56Z) - One Chatbot Per Person: Creating Personalized Chatbots based on Implicit
User Profiles [31.432585994256375]
既存のパーソナライズされたアプローチは、いくつかのテキスト記述を明示的なユーザプロファイルとして組み込もうとした。
我々は、ユーザの履歴応答から一般ユーザプロファイルを構築するために、パーソナライズされた言語モデルを訓練する。
我々は、汎用語彙から単語を生成し、ユーザのパーソナライズされた語彙から1単語をコピーする2つのデコード戦略を融合するパーソナライズされたデコーダを設計する。
論文 参考訳(メタデータ) (2021-08-20T20:33:12Z) - CloneBot: Personalized Dialogue-Response Predictions [0.0]
プロジェクトのタスクは、話者id、チャット履歴、発話クエリが与えられた場合に、会話中の応答発話を予測できるモデルを作成することだった。
モデルは各話者にパーソナライズされる。
このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。
論文 参考訳(メタデータ) (2021-03-31T01:15:37Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。