論文の概要: Using Synthetic Data for Conversational Response Generation in
Low-resource Settings
- arxiv url: http://arxiv.org/abs/2204.02653v1
- Date: Wed, 6 Apr 2022 08:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 22:11:01.185530
- Title: Using Synthetic Data for Conversational Response Generation in
Low-resource Settings
- Title(参考訳): 低リソース環境における会話応答生成のための合成データの利用
- Authors: Gabriel Louis Tan, Adrian Paule Ty, Schuyler Ng, Denzel Adrian Co, Jan
Christian Blaise Cruz and Charibeth Cheng
- Abstract要約: フィリピンの人気オンラインフォーラムから収集された最初のフィリピンの会話データセットをリリースする。
次に,Tagalog RoBERTaモデルを用いて既存のコーパスのサイズを増大させることにより,フィリピンのデータに対するデータ拡張手法を提案する。
第3に、フィリピン初の対話応答生成装置を公開し、前回の3つの応答に関する応答を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Response generation is a task in natural language processing (NLP) where a
model is trained to respond to human statements. Conversational response
generators take this one step further with the ability to respond within the
context of previous responses. While there are existing techniques for training
such models, they all require an abundance of conversational data which are not
always available for low-resource languages. In this research, we make three
contributions. First, we released the first Filipino conversational dataset
collected from a popular Philippine online forum, which we named the PEx
Conversations Dataset. Second, we introduce a data augmentation (DA)
methodology for Filipino data by employing a Tagalog RoBERTa model to increase
the size of the existing corpora. Lastly, we published the first Filipino
conversational response generator capable of generating responses related to
the previous 3 responses. With the supplementary synthetic data, we were able
to improve the performance of the response generator by up to 12.2% in
BERTScore, 10.7% in perplexity, and 11.7% in content word usage as compared to
training with zero synthetic data.
- Abstract(参考訳): 応答生成は自然言語処理(nlp)のタスクであり、モデルが人間の文に応答するように訓練される。
会話応答生成器はこの一歩進めて、以前の応答のコンテキスト内で応答する能力を備える。
このようなモデルのトレーニングには既存のテクニックがあるが、いずれも低リソース言語では必ずしも利用できない会話データを必要とする。
本研究では3つの貢献を行う。
まず、フィリピンで人気のオンラインフォーラムから収集された最初のフィリピン語会話データセットをpex conversationsデータセットと名付けた。
次に,Tagalog RoBERTaモデルを用いて既存のコーパスのサイズを増大させることにより,フィリピンのデータに対するデータ拡張(DA)手法を提案する。
最後に,フィリピン初の対話応答生成装置を公開し,これまでの3つの応答に関する応答を生成する。
補足的な合成データを用いて,合成データゼロのトレーニングと比較して,最大12.2%のbertscore,10.7%のパープレキシティ,11.7%のコンテンツ単語使用率で応答生成性能を向上させることができた。
関連論文リスト
- HR-MultiWOZ: A Task Oriented Dialogue (TOD) Dataset for HR LLM Agent [6.764665650605542]
10のHRドメインにまたがる550の会話の完全なラベル付きデータセットであるHR-Multiwozを紹介した。
NLP研究のためのHRドメインにおける最初のラベル付きオープンソースの会話データセットである。
データ解析と人的評価とともに、データ生成手順の詳細なレシピを提供する。
論文 参考訳(メタデータ) (2024-02-01T21:10:44Z) - Faithful Persona-based Conversational Dataset Generation with Large
Language Models [10.506653172302222]
高品質な会話データセットは、ユーザと通信可能なAIモデルを開発する上で不可欠である。
我々は,会話の質を向上しつつ,初期データセットを拡張するためのGenerator-Criticアーキテクチャフレームワークを提案する。
我々はPersona-Chatからシードされた20万の会話からなるSynthetic-Persona-Chatをリリースする。
論文 参考訳(メタデータ) (2023-12-15T18:23:50Z) - SYNDICOM: Improving Conversational Commonsense with Error-Injection and
Natural Language Feedback [3.642278451851518]
対話応答生成におけるコモンセンス改善手法であるSynDICOMを紹介する。
最初のコンポーネントは知識グラフから生成され、自然言語に合成された常識対話からなるデータセットである。
2つ目のコントリビューションは、2段階の手順である: 自然言語フィードバック(NLF)を予測するためのモデルをトレーニングし、予測されたNLFに条件付けされた応答生成モデルをトレーニングする。
論文 参考訳(メタデータ) (2023-09-18T15:08:48Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Zero-Shot Dialogue Disentanglement by Self-Supervised Entangled Response
Selection [79.37200787463917]
対話の切り離しは、スレッドへの長大かつ多人数の対話において、発話をグループ化することを目的としている。
これは談話分析や対話応答選択などの下流アプリケーションに有用である。
我々はまず,atextbfzero-shotダイアログ・ディアンタングメント・ソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-25T05:15:01Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - A Review of Bangla Natural Language Processing Tasks and the Utility of
Transformer Models [2.5768647103950357]
研究コミュニティで利用可能なBangla NLPタスク、リソース、ツールについてレビューする。
我々は、現在最先端のアルゴリズムを用いて、9つのNLPタスクのために、さまざまなプラットフォームから収集されたデータセットをベンチマークした。
個人と統合されたデータセットを用いてその結果を報告し、今後の研究のためのデータを提供する。
論文 参考訳(メタデータ) (2021-07-08T13:49:46Z) - Partner Matters! An Empirical Study on Fusing Personas for Personalized
Response Selection in Retrieval-Based Chatbots [51.091235903442715]
本稿では,自己とパートナーの話者が応答選択の課題に与える影響について検討する。
4つのペルソナ融合戦略が設計されており、異なる方法でペルソナがコンテキストや応答と相互作用することを前提としている。
Persona-Chatデータセットに関する実証研究は、パートナーペルソナが応答選択の精度を向上させることができることを示している。
論文 参考訳(メタデータ) (2021-05-19T10:32:30Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。