論文の概要: A New Data Normalization Method to Improve Dialogue Generation by
Minimizing Long Tail Effect
- arxiv url: http://arxiv.org/abs/2005.01278v1
- Date: Mon, 4 May 2020 05:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 23:54:43.697905
- Title: A New Data Normalization Method to Improve Dialogue Generation by
Minimizing Long Tail Effect
- Title(参考訳): 長所効果最小化による対話生成改善のための新しいデータ正規化法
- Authors: Zhiqiang Zhan, Zifeng Hou, Yang Zhang
- Abstract要約: ウィキペディアから大規模コーパスを分析し,3つの周波数ベースデータ正規化手法を提案する。
実験の結果, 生成した応答の多様性と情報性に有意な改善が認められた。
- 参考スコア(独自算出の注目度): 4.939434448798507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent neural models have shown significant progress in dialogue generation.
Most generation models are based on language models. However, due to the Long
Tail Phenomenon in linguistics, the trained models tend to generate words that
appear frequently in training datasets, leading to a monotonous issue. To
address this issue, we analyze a large corpus from Wikipedia and propose three
frequency-based data normalization methods. We conduct extensive experiments
based on transformers and three datasets respectively collected from social
media, subtitles, and the industrial application. Experimental results
demonstrate significant improvements in diversity and informativeness (defined
as the numbers of nouns and verbs) of generated responses. More specifically,
the unigram and bigram diversity are increased by 2.6%-12.6% and 2.2%-18.9% on
the three datasets, respectively. Moreover, the informativeness, i.e. the
numbers of nouns and verbs, are increased by 4.0%-7.0% and 1.4%-12.1%,
respectively. Additionally, the simplicity and effectiveness enable our methods
to be adapted to different generation models without much extra computational
cost.
- Abstract(参考訳): 最近のニューラルモデルでは対話生成が著しく進展している。
ほとんどの世代モデルは言語モデルに基づいている。
しかし、言語学におけるロングテール現象のため、訓練されたモデルは訓練データセットに頻繁に現れる単語を生成する傾向にあり、単調な問題に繋がる。
この問題に対処するために,wikipediaの大規模コーパスを分析し,頻度に基づく3つのデータ正規化手法を提案する。
ソーシャルメディア,サブタイトル,産業アプリケーションからそれぞれ収集した3つのデータセットとトランスフォーマーに基づく広範な実験を行う。
実験結果は,生成した応答の多様性と情報性(名詞と動詞の数として定義される)が著しく向上したことを示す。
具体的には、ユニグラムとビッグラムの多様性は3つのデータセットでそれぞれ2.6%-12.6%と2.2%-18.9%増加する。
さらに、情報性、すなわち名詞と動詞の数をそれぞれ4.0%-7.0%および1.4%-12.1%増加させる。
さらに、単純さと有効性により、計算コストを余分に増やさずに異なる世代モデルに適応することができる。
関連論文リスト
- A New Method for Cross-Lingual-based Semantic Role Labeling [5.992526851963307]
英語とペルシア語のセマンティック・ロール・ラベリングを訓練するためのディープラーニングアルゴリズムが提案されている。
その結果,Niksirt et al.のモデルと比較すると,有意な改善が認められた。
セマンティックロールラベリングのための言語間メソッドの開発は、約束を守る。
論文 参考訳(メタデータ) (2024-08-28T16:06:12Z) - A Comparative Analysis of Conversational Large Language Models in
Knowledge-Based Text Generation [5.661396828160973]
本研究では,意味的三重項から自然言語文を生成する際に,対話型大規模言語モデルの実証分析を行う。
我々は、異なるプロンプト技術を用いて、異なる大きさの4つの大きな言語モデルを比較する。
この結果から,三重動詞化における大規模言語モデルの能力は,数発のプロンプト,後処理,効率的な微調整技術によって著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-02T15:26:39Z) - Dissecting vocabulary biases datasets through statistical testing and
automated data augmentation for artifact mitigation in Natural Language
Inference [3.154631846975021]
我々は、データセットのアーティファクトを調査し、これらの問題に対処するための戦略を開発することに重点を置いている。
文字レベルから単語レベルにまたがる複数の自動データ拡張戦略を提案する。
実験により,提案手法はモデル精度を効果的に向上し,バイアスを最大0.66%,バイアスを1.14%低減することを示した。
論文 参考訳(メタデータ) (2023-12-14T08:46:26Z) - ReGen: Zero-Shot Text Classification via Training Data Generation with
Progressive Dense Retrieval [22.882301169283323]
一般ドメインの未ラベルコーパスからトレーニングデータを作成するための検索強化フレームワークを提案する。
9つのデータセットの実験では、REGENは最強のベースラインに対して4.3%のゲインを達成し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。
論文 参考訳(メタデータ) (2023-05-18T04:30:09Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。