論文の概要: TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding
- arxiv url: http://arxiv.org/abs/2205.06153v1
- Date: Thu, 12 May 2022 15:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:47:45.694668
- Title: TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding
- Title(参考訳): TreeMix: 自然言語理解のための構成成分に基づくデータ拡張
- Authors: Le Zhang, Zichao Yang, Diyi Yang
- Abstract要約: 自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
- 参考スコア(独自算出の注目度): 56.794981024301094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is an effective approach to tackle over-fitting. Many
previous works have proposed different data augmentations strategies for NLP,
such as noise injection, word replacement, back-translation etc. Though
effective, they missed one important characteristic of
language--compositionality, meaning of a complex expression is built from its
sub-parts. Motivated by this, we propose a compositional data augmentation
approach for natural language understanding called TreeMix. Specifically,
TreeMix leverages constituency parsing tree to decompose sentences into
constituent sub-structures and the Mixup data augmentation technique to
recombine them to generate new sentences. Compared with previous approaches,
TreeMix introduces greater diversity to the samples generated and encourages
models to learn compositionality of NLP data. Extensive experiments on text
classification and SCAN demonstrate that TreeMix outperforms current
state-of-the-art data augmentation methods.
- Abstract(参考訳): データ拡張は、過剰な適合に取り組むための効果的なアプローチです。
従来の多くの研究は、ノイズ注入、単語置換、バックトランスレーションなど、NLPのための異なるデータ拡張戦略を提案してきた。
効果はあるものの、言語構成性の1つの重要な特徴を見逃し、複雑な表現の意味は、その部分から作られる。
そこで本研究では,自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成サブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
テキスト分類とSCANに関する大規模な実験は、TreeMixが現在の最先端データ拡張手法より優れていることを示した。
関連論文リスト
- DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - SUBS: Subtree Substitution for Compositional Semantic Parsing [50.63574492655072]
本稿では,類似のセマンティック関数を持つサブツリーを交換可能と考える合成データ拡張にサブツリー置換を用いることを提案する。
実験の結果、このような拡張されたデータはSCANとGeoQueryで大幅にパフォーマンスが向上し、GeoQueryの合成分割で新しいSOTAに達した。
論文 参考訳(メタデータ) (2022-05-03T14:47:35Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification [11.742065170002162]
Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
論文 参考訳(メタデータ) (2021-12-16T09:56:35Z) - Sequence-Level Mixed Sample Data Augmentation [119.94667752029143]
本研究は、シーケンス対シーケンス問題に対するニューラルモデルにおける合成行動を促進するための単純なデータ拡張手法を提案する。
我々の手法であるSeqMixは、トレーニングセットから入力/出力シーケンスをソフトに結合することで、新しい合成例を作成する。
論文 参考訳(メタデータ) (2020-11-18T02:18:04Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z) - Stochastic Natural Language Generation Using Dependency Information [0.7995360025953929]
本稿では,自然言語テキストを生成するコーパスベースモデルを提案する。
我々のモデルは、特徴集合を通じてトレーニングデータから依存関係を符号化し、与えられた意味表現のための新しい依存木を生成する。
本モデルでは, 品質だけでなく, 情報性, 自然性といった面においても, 高品質な発話を生成できることが示されている。
論文 参考訳(メタデータ) (2020-01-12T09:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。