論文の概要: A Large-Scale Chinese Short-Text Conversation Dataset
- arxiv url: http://arxiv.org/abs/2008.03946v2
- Date: Tue, 26 Apr 2022 07:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 22:45:54.280291
- Title: A Large-Scale Chinese Short-Text Conversation Dataset
- Title(参考訳): 大規模中国語短文会話データセット
- Authors: Yida Wang, Pei Ke, Yinhe Zheng, Kaili Huang, Yong Jiang, Xiaoyan Zhu,
and Minlie Huang
- Abstract要約: 大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
- 参考スコア(独自算出の注目度): 77.55813366932313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancements of neural dialogue generation models show promising results
on modeling short-text conversations. However, training such models usually
needs a large-scale high-quality dialogue corpus, which is hard to access. In
this paper, we present a large-scale cleaned Chinese conversation dataset,
LCCC, which contains a base version (6.8million dialogues) and a large version
(12.0 million dialogues). The quality of our dataset is ensured by a rigorous
data cleaning pipeline, which is built based on a set of rules and a classifier
that is trained on manually annotated 110K dialogue pairs. We also release
pre-training dialogue models which are trained on LCCC-base and LCCC-large
respectively. The cleaned dataset and the pre-training models will facilitate
the research of short-text conversation modeling. All the models and datasets
are available at https://github.com/thu-coai/CDial-GPT.
- Abstract(参考訳): ニューラルダイアログ生成モデルの進歩は、短文会話のモデル化において有望な結果を示す。
しかし、そのようなモデルのトレーニングは通常、アクセスが難しい大規模な高品質な対話コーパスを必要とする。
本稿では,大規模な中国語会話データセットLCCCについて,ベースバージョン(6.8万対話),大バージョン(12.0万対話)について述べる。
データセットの品質は、厳密なデータクリーニングパイプラインによって保証されます。これはルールセットと、手動で注釈付き110Kの対話ペアに基づいてトレーニングされた分類器に基づいて構築されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
クリーンなデータセットと事前トレーニングモデルにより、短いテキスト会話モデリングの研究が容易になる。
すべてのモデルとデータセットはhttps://github.com/thu-coai/CDial-GPTで公開されている。
関連論文リスト
- SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - q2d: Turning Questions into Dialogs to Teach Models How to Search [11.421839177607147]
質問から情報検索ダイアログを生成する自動データ生成パイプラインであるq2dを提案する。
検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。
論文 参考訳(メタデータ) (2023-04-27T16:39:15Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - Prompting for a conversation: How to control a dialog model? [9.268682116424518]
ダイアログモデルは大量のテキストでトレーニングされるが、その応答はダイアログエージェントの望ましいスコープとスタイルに制限される必要がある。
前者を達成するために使用されるデータセットには後者と互換性のない言語が含まれているため、事前訓練されたダイアログモデルは、より小さなキュレートされたデータセットで微調整される。
本稿では,上記のトレードオフを緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-09-22T14:59:55Z) - OPAL: Ontology-Aware Pretrained Language Model for End-to-End
Task-Oriented Dialogue [40.62090743056549]
本稿では、エンドツーエンドタスク指向対話(TOD)のためのオントロジー対応事前学習言語モデル(OPAL)を提案する。
チャット型対話モデルとは異なり、タスク指向対話モデルは少なくとも2つのタスク固有モジュールを満たす:対話状態トラッカー(DST)と応答生成器(RG)。
論文 参考訳(メタデータ) (2022-09-10T04:38:27Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。