論文の概要: TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding
- arxiv url: http://arxiv.org/abs/2205.06153v1
- Date: Thu, 12 May 2022 15:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:47:45.694668
- Title: TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding
- Title(参考訳): TreeMix: 自然言語理解のための構成成分に基づくデータ拡張
- Authors: Le Zhang, Zichao Yang, Diyi Yang
- Abstract要約: 自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
- 参考スコア(独自算出の注目度): 56.794981024301094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is an effective approach to tackle over-fitting. Many
previous works have proposed different data augmentations strategies for NLP,
such as noise injection, word replacement, back-translation etc. Though
effective, they missed one important characteristic of
language--compositionality, meaning of a complex expression is built from its
sub-parts. Motivated by this, we propose a compositional data augmentation
approach for natural language understanding called TreeMix. Specifically,
TreeMix leverages constituency parsing tree to decompose sentences into
constituent sub-structures and the Mixup data augmentation technique to
recombine them to generate new sentences. Compared with previous approaches,
TreeMix introduces greater diversity to the samples generated and encourages
models to learn compositionality of NLP data. Extensive experiments on text
classification and SCAN demonstrate that TreeMix outperforms current
state-of-the-art data augmentation methods.
- Abstract(参考訳): データ拡張は、過剰な適合に取り組むための効果的なアプローチです。
従来の多くの研究は、ノイズ注入、単語置換、バックトランスレーションなど、NLPのための異なるデータ拡張戦略を提案してきた。
効果はあるものの、言語構成性の1つの重要な特徴を見逃し、複雑な表現の意味は、その部分から作られる。
そこで本研究では,自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成サブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
テキスト分類とSCANに関する大規模な実験は、TreeMixが現在の最先端データ拡張手法より優れていることを示した。
関連論文リスト
- Improving Non-native Word-level Pronunciation Scoring with Phone-level
Mixup Data Augmentation and Multi-source Information [15.72173704767198]
そこで本稿では, 単語レベルの発音性能を向上させるために, 簡易で効果的なデータ拡張手法である電話レベルのミキサアップを提案する。
我々は、マルチソース情報(例えば、MFCCとディープ特徴)を使用して、スコアリングシステムの性能をさらに向上する。
論文 参考訳(メタデータ) (2022-03-01T05:29:57Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification [11.742065170002162]
Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
論文 参考訳(メタデータ) (2021-12-16T09:56:35Z) - NL-Augmenter: A Framework for Task-Sensitive Natural Language
Augmentation [91.97706178867439]
提案するNL-Augmenterは,Pythonベースの自然言語拡張フレームワークである。
このフレームワークと117の変換と23のフィルタを、さまざまな自然言語タスクに対して記述する。
我々は,NL-Augmenterの有効性を,NL-Augmenterの変換を用いて検証し,自然言語モデルのロバスト性を解析した。
論文 参考訳(メタデータ) (2021-12-06T00:37:59Z) - Learning compositional structures for semantic graph parsing [81.41592892863979]
本稿では、AM依存性解析をニューラル潜在変数モデルで直接トレーニングする方法を示す。
本モデルでは,いくつかの言語現象を独自に把握し,教師あり学習に匹敵する精度を達成している。
論文 参考訳(メタデータ) (2021-06-08T14:20:07Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。