論文の概要: Substructure Substitution: Structured Data Augmentation for NLP
- arxiv url: http://arxiv.org/abs/2101.00411v1
- Date: Sat, 2 Jan 2021 09:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 07:18:34.148161
- Title: Substructure Substitution: Structured Data Augmentation for NLP
- Title(参考訳): サブストラクチャー代替:NLPのための構造化データ拡張
- Authors: Haoyue Shi, Karen Livescu, Kevin Gimpel
- Abstract要約: SUB2は、同じラベルを持つサブ構造を置換して新しい例を生成する。
より一般的なタスクでは、選挙区解析木に基づくSUB2のバリエーションを示す。
ほとんどの場合、SUB2による強化データセットによるトレーニングは、元のトレーニングセットでのトレーニングよりも優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 55.69800855705232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a family of data augmentation methods, substructure substitution
(SUB2), for natural language processing (NLP) tasks. SUB2 generates new
examples by substituting substructures (e.g., subtrees or subsequences) with
ones with the same label, which can be applied to many structured NLP tasks
such as part-of-speech tagging and parsing. For more general tasks (e.g., text
classification) which do not have explicitly annotated substructures, we
present variations of SUB2 based on constituency parse trees, introducing
structure-aware data augmentation methods to general NLP tasks. For most cases,
training with the augmented dataset by SUB2 achieves better performance than
training with the original training set. Further experiments show that SUB2 has
more consistent performance than other investigated augmentation methods,
across different tasks and sizes of the seed dataset.
- Abstract(参考訳): 本研究では,自然言語処理(NLP)タスクのためのデータ拡張手法であるサブ構造置換(SUB2)のファミリーについて検討する。
SUB2は、サブ構造(サブツリーやサブシーケンスなど)を同じラベルのサブ構造に置換することで、新しい例を生成する。
明示的に注釈付けされた部分構造を持たないより一般的なタスク(例えばテキスト分類)については、一般のNLPタスクに構造対応データ拡張手法を導入し、選挙区解析木に基づくSUB2のバリエーションを示す。
ほとんどの場合、SUB2による強化データセットによるトレーニングは、元のトレーニングセットでのトレーニングよりも優れたパフォーマンスを達成する。
さらなる実験により、SUB2はシードデータセットのさまざまなタスクとサイズで、他の調査された拡張メソッドよりも一貫性のある性能を示している。
関連論文リスト
- Evaluating representation learning on the protein structure universe [19.856785982914243]
ProteinWorkshopは、Graph Neural Networksでタンパク質構造の表現学習を行うためのベンチマークスイートである。
本研究は,実験と予測の両方における大規模事前学習および下流作業について考察する。
1)AlphaFold構造と補助タスクの大規模事前学習は、回転不変および同変GNNの性能を一貫して改善する。
論文 参考訳(メタデータ) (2024-06-19T21:48:34Z) - Unsupervised Chunking with Hierarchical RNN [62.15060807493364]
本稿では,非階層的手法で単語をグループ化する構文的タスクであるチャンキングに対する教師なしアプローチを紹介する。
本稿では,単語-チャンク・チャンク-文合成をモデル化した2層階層型階層型リカレントニューラルネットワーク(HRNN)を提案する。
CoNLL-2000データセットの実験では、既存の教師なし手法よりも顕著な改善が見られ、フレーズF1スコアが最大6ポイント向上した。
論文 参考訳(メタデータ) (2023-09-10T02:55:12Z) - Learning to Paraphrase Sentences to Different Complexity Levels [3.0273878903284275]
文の単純化はNLPにおいて活発な研究課題であるが,その隣接する文の複雑化や同レベルのパラフレーズ化の課題はそうではない。
3つのタスクすべてでモデルをトレーニングするために、教師なしデータセットを2つ提示する。
論文 参考訳(メタデータ) (2023-08-04T09:43:37Z) - SUBS: Subtree Substitution for Compositional Semantic Parsing [50.63574492655072]
本稿では,類似のセマンティック関数を持つサブツリーを交換可能と考える合成データ拡張にサブツリー置換を用いることを提案する。
実験の結果、このような拡張されたデータはSCANとGeoQueryで大幅にパフォーマンスが向上し、GeoQueryの合成分割で新しいSOTAに達した。
論文 参考訳(メタデータ) (2022-05-03T14:47:35Z) - Structurally Diverse Sampling Reduces Spurious Correlations in Semantic
Parsing Datasets [51.095144091781734]
本稿では,構造化された出力を持つラベル付きインスタンスプールから,構造的に多様なインスタンス群をサンプリングする新しいアルゴリズムを提案する。
提案アルゴリズムは, 合成テンプレート分割だけでなく, 従来のID分割においても, 従来のアルゴリズムよりも競合的に動作することを示す。
一般に、多種多様な列車集合は、10組のデータセット分割ペアのうち9組で同じ大きさのランダムな訓練集合よりも優れた一般化をもたらす。
論文 参考訳(メタデータ) (2022-03-16T07:41:27Z) - ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification [11.742065170002162]
Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
論文 参考訳(メタデータ) (2021-12-16T09:56:35Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。