論文の概要: Pchatbot: A Large-Scale Dataset for Personalized Chatbot
- arxiv url: http://arxiv.org/abs/2009.13284v3
- Date: Mon, 31 May 2021 05:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 20:47:33.274167
- Title: Pchatbot: A Large-Scale Dataset for Personalized Chatbot
- Title(参考訳): Pchatbot: パーソナライズされたチャットボットのための大規模データセット
- Authors: Hongjin Qian, Xiaohe Li, Hanxun Zhong, Yu Guo, Yueyuan Ma, Yutao Zhu,
Zhanliang Liu, Zhicheng Dou, Ji-Rong Wen
- Abstract要約: 本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
- 参考スコア(独自算出の注目度): 49.16746174238548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language dialogue systems raise great attention recently. As many
dialogue models are data-driven, high-quality datasets are essential to these
systems. In this paper, we introduce Pchatbot, a large-scale dialogue dataset
that contains two subsets collected from Weibo and Judicial forums
respectively. To adapt the raw dataset to dialogue systems, we elaborately
normalize the raw dataset via processes such as anonymization, deduplication,
segmentation, and filtering. The scale of Pchatbot is significantly larger than
existing Chinese datasets, which might benefit the data-driven models. Besides,
current dialogue datasets for personalized chatbot usually contain several
persona sentences or attributes. Different from existing datasets, Pchatbot
provides anonymized user IDs and timestamps for both posts and responses. This
enables the development of personalized dialogue models that directly learn
implicit user personality from the user's dialogue history. Our preliminary
experimental study benchmarks several state-of-the-art dialogue models to
provide a comparison for future work. The dataset can be publicly accessed at
Github.
- Abstract(参考訳): 近年,自然言語対話システムが注目されている。
多くの対話モデルがデータ駆動であるため、これらのシステムには高品質なデータセットが不可欠である。
本稿では,weiboと司法フォーラムから収集した2つのサブセットを含む大規模対話データセットであるpchatbotを紹介する。
対話システムに生データセットを適用するため、匿名化、重複解消、セグメンテーション、フィルタリングなどのプロセスを通じて生データセットを精巧に正規化する。
pchatbotの規模は、既存の中国のデータセットよりもはるかに大きいため、データ駆動モデルにメリットがある。
加えて、パーソナライズされたチャットボットのための現在の対話データセットは、通常、いくつかのペルソナ文や属性を含んでいる。
既存のデータセットとは異なり、Pchatbotは匿名化されたユーザIDと、ポストとレスポンスの両方にタイムスタンプを提供する。
これにより、ユーザの対話履歴から暗黙のユーザ個性を直接学習するパーソナライズされた対話モデルの開発が可能になる。
本研究は,今後の課題の比較を行うため,いくつかの最先端対話モデルの予備実験を行った。
データセットはgithubで公開されている。
関連論文リスト
- PSYDIAL: Personality-based Synthetic Dialogue Generation using Large Language Models [4.283022729693451]
本稿では,大規模言語モデルからの応答をプロンプトによって引き出すための,エンドツーエンドのパーソナリティに基づく合成対話データ生成パイプラインを提案する。
提案したパイプラインを用いて,パーソナリティに基づく対話に焦点を当てた韓国初の対話データセットPSYDIALを紹介した。
実験結果から, 事前学習モデルと, チャイトチャットデータセットを用いた微調整モデルでは, 人格を反映する応答を生成するのに苦労する一方で, PSYDIALでトレーニングしたモデルでは, 大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-04-01T05:19:34Z) - PersonalityChat: Conversation Distillation for Personalized Dialog
Modeling with Facts and Traits [5.447308344436046]
PersonalityChatは、人気のPersonaChatデータセットに基づいた合成会話データセットである。
生成対話モデルの特質に基づくパーソナライズには,性格特性ラベルが有効であることを示す。
論文 参考訳(メタデータ) (2024-01-14T20:35:33Z) - SalesBot 2.0: A Human-Like Intent-Guided Chit-Chat Dataset [28.257630375747606]
本稿では,大規模言語モデル(LLM)の共通知識を適切なプロンプトによって活用することにより,公開データの改訂版であるSalesBot 2.0を構築することを目的とする。
詳細なアノテーションを備えた新たにリリースされた大規模なデータセットは、トピック間のスムーズな移行を示し、自然性や一貫性の観点からは人間らしくなっている。
論文 参考訳(メタデータ) (2023-08-28T02:48:49Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。