論文の概要: Linguistic Knowledge in Data Augmentation for Natural Language
Processing: An Example on Chinese Question Matching
- arxiv url: http://arxiv.org/abs/2111.14709v1
- Date: Mon, 29 Nov 2021 17:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 16:24:14.782596
- Title: Linguistic Knowledge in Data Augmentation for Natural Language
Processing: An Example on Chinese Question Matching
- Title(参考訳): 自然言語処理のためのデータ拡張における言語知識:中国語質問マッチングの例
- Authors: Zhengxiang Wang
- Abstract要約: 2つのDAプログラムは5つの簡単なテキスト編集操作によって拡張テキストを生成する。
1つはn-gram言語モデルで拡張され、余分な言語知識と融合する。
強化された訓練セットの両タイプで訓練されたモデルは、関連する未拡張セットで直接訓練されたモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation (DA) is a common solution to data scarcity and imbalance
problems, which is an area getting increasing attentions from the Natural
Language Processing (NLP) community. While various DA techniques have been used
in NLP research, little is known about the role of linguistic knowledge in DA
for NLP; in particular, whether more linguistic knowledge leads to a better DA
approach. To investigate that, we designed two adapted DA programs and applied
them to LCQMC (a Large-scale Chinese Question Matching Corpus) for a binary
Chinese question matching classification task. The two DA programs produce
augmented texts by five simple text editing operations, largely irrespective of
language generation rules, but one is enhanced with a n-gram language model to
make it fused with extra linguistic knowledge. We then trained four neural
network models and a pre-trained model on the LCQMC train sets of varying size
as well as the corresponding augmented trained sets produced by the two DA
programs. The test set performances of the five classification models show that
adding probabilistic linguistic knowledge as constrains does not make the base
DA program better, since there are no discernible performance differences
between the models trained on the two types of augmented train sets. Instead,
since the added linguistic knowledge decreases the diversity of the augmented
texts, the trained models generalizability is hampered. Moreover, models
trained on both types of the augmented trained sets were found to be
outperformed by those directly trained on the associated un-augmented train
sets, due to the inability of the underlying text editing operations to make
paraphrastic augmented texts. We concluded that the validity and diversity of
the augmented texts are two important factors for a DA approach or technique to
be effective and proposed a possible paradigm shift for text augmentation.
- Abstract(参考訳): データ拡張(da)は、自然言語処理(nlp)コミュニティから注目を集めている領域であるデータ不足と不均衡問題に対する一般的な解決策である。
NLP研究で様々なDA技術が用いられているが、NLPにおけるDAにおける言語知識の役割についてはほとんど知られていない。
そこで本研究では,2つの適応型daプログラムを設計し,二分法中国語質問マッチング分類タスクのlcqmc(大規模中国語質問マッチングコーパス)に適用した。
2つのDAプログラムは、言語生成規則によらず、5つの単純なテキスト編集操作によって拡張テキストを生成するが、1つはn-gram言語モデルで拡張され、余分な言語知識と融合させる。
次に,4つのニューラルネットワークモデルとLCQMCトレインセットの事前学習モデルと,それに対応する2つのDAプログラムによって生成された強化トレーニングセットを訓練した。
5種類の分類モデルのテストセット性能は,2種類の強化列車群で訓練されたモデル間には明らかな性能差がないため,確率的言語知識を制約として付加しても基礎DAプログラムは向上しないことを示している。
代わりに、追加の言語知識が拡張テキストの多様性を低下させるため、訓練されたモデルの一般化が妨げられる。
さらに、強化されたトレーニングセットの両タイプで訓練されたモデルは、パラフラスティックな拡張テキストを作成するための基礎となるテキスト編集操作ができないため、関連する未拡張のセットで直接訓練されたモデルよりも優れていた。
拡張テキストの有効性と多様性は,daアプローチや効果的な手法の2つの重要な要素であり,テキスト拡張のパラダイムシフトの可能性を提案した。
関連論文リスト
- VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Revisiting and Advancing Chinese Natural Language Understanding with
Accelerated Heterogeneous Knowledge Pre-training [25.510288465345592]
英語とは違って、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが欠如している。
そこで我々は,さまざまなパラメータサイズで公開された中国語KEPLMを用いて,中国語の自然言語理解の展開と発展について検討する。
具体的には、リレーショナル知識と言語知識の両方を、2つの新しい事前学習タスクに基づいてCKBERTに効果的に注入する。
論文 参考訳(メタデータ) (2022-10-11T09:34:21Z) - Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。
具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。
提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-08T02:57:28Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Towards Generalized Models for Task-oriented Dialogue Modeling on Spoken
Conversations [22.894541507068933]
本稿では,DSTC-10の音声対話課題における知識ベースタスク指向対話モデリングのための一般化モデルの構築について述べる。
我々は,人工誤り注入やラウンドトリップ音声変換など,手書きデータに対する広範なデータ拡張戦略を採用している。
本手法は, 客観的評価では3位, 最終公式評価では2位である。
論文 参考訳(メタデータ) (2022-03-08T12:26:57Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。