論文の概要: The Gutenberg Dialogue Dataset
- arxiv url: http://arxiv.org/abs/2004.12752v2
- Date: Fri, 22 Jan 2021 17:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:21:31.103717
- Title: The Gutenberg Dialogue Dataset
- Title(参考訳): Gutenbergの対話データセット
- Authors: Richard Csaky and Gabor Recski
- Abstract要約: 現在公開されているオープンドメインの対話データセットは、品質とサイズの間のトレードオフを提供する。
英語で14.8Mの発話の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築します。
- 参考スコア(独自算出の注目度): 1.90365714903665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large datasets are essential for neural modeling of many NLP tasks. Current
publicly available open-domain dialogue datasets offer a trade-off between
quality (e.g., DailyDialog) and size (e.g., Opensubtitles). We narrow this gap
by building a high-quality dataset of 14.8M utterances in English, and smaller
datasets in German, Dutch, Spanish, Portuguese, Italian, and Hungarian. We
extract and process dialogues from public-domain books made available by
Project Gutenberg. We describe our dialogue extraction pipeline, analyze the
effects of the various heuristics used, and present an error analysis of
extracted dialogues. Finally, we conduct experiments showing that better
response quality can be achieved in zero-shot and finetuning settings by
training on our data than on the larger but much noisier Opensubtitles dataset.
Our open-source pipeline (https://github.com/ricsinaruto/gutenberg-dialog) can
be extended to further languages with little additional effort. Researchers can
also build their versions of existing datasets by adjusting various trade-off
parameters. We also built a web demo for interacting with our models:
https://ricsinaruto.github.io/chatbot.html.
- Abstract(参考訳): 大規模なデータセットは多くのNLPタスクのニューラルモデリングに不可欠である。
現在公開されているオープンドメイン対話データセットは、品質(例えば、デイリーダイアログ)とサイズ(例えば、opensubtitles)のトレードオフを提供する。
英語で148万発の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築して、このギャップを狭めました。
我々はproject gutenbergが公開したパブリックドメインの書籍から対話を抽出・処理する。
本稿では,対話抽出パイプラインについて述べるとともに,使用する各種ヒューリスティックの効果を分析し,抽出された対話の誤り解析を行う。
最後に、より大きくてノイズの多いOpensubtitlesデータセットよりも、データのトレーニングによって、ゼロショットおよび微調整設定で、より良い応答品質が達成できることを示す実験を行う。
私たちのオープンソースパイプライン(https://github.com/ricsinaruto/gutenberg-dialog)は、追加の労力で、さらなる言語に拡張できます。
研究者は、さまざまなトレードオフパラメータを調整することで、既存のデータセットのバージョンを構築することもできる。
https://ricsinaruto.github.io/chatbot.html というモデルと対話するための web デモも構築しました。
関連論文リスト
- Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Contextual Semantic Parsing for Multilingual Task-Oriented Dialogues [7.8378818005171125]
1つの言語で大規模な対話データセットをセットすると、機械翻訳を用いて他の言語に対して効果的な意味を自動生成できる。
本稿では、スロット値の忠実な翻訳を保証するために、アライメント付き対話データセットの自動翻訳を提案する。
簡潔な表現が翻訳誤りの複合効果を減少させることを示す。
論文 参考訳(メタデータ) (2021-11-04T01:08:14Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。