論文の概要: ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification
- arxiv url: http://arxiv.org/abs/2112.11916v1
- Date: Thu, 16 Dec 2021 09:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 12:27:46.585718
- Title: ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification
- Title(参考訳): ALP:Lexicalized PCFGsを用いたFew-Shotテキスト分類のためのデータ拡張
- Authors: Hazel Kim, Daecheol Woo, Seong Joon Oh, Jeong-Won Cha, Yo-Sub Han
- Abstract要約: Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
- 参考スコア(独自算出の注目度): 11.742065170002162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data augmentation has been an important ingredient for boosting performances
of learned models. Prior data augmentation methods for few-shot text
classification have led to great performance boosts. However, they have not
been designed to capture the intricate compositional structure of natural
language. As a result, they fail to generate samples with plausible and diverse
sentence structures. Motivated by this, we present the data Augmentation using
Lexicalized Probabilistic context-free grammars (ALP) that generates augmented
samples with diverse syntactic structures with plausible grammar. The
lexicalized PCFG parse trees consider both the constituents and dependencies to
produce a syntactic frame that maximizes a variety of word choices in a
syntactically preservable manner without specific domain experts. Experiments
on few-shot text classification tasks demonstrate that ALP enhances many
state-of-the-art classification methods. As a second contribution, we delve
into the train-val splitting methodologies when a data augmentation method
comes into play. We argue empirically that the traditional splitting of
training and validation sets is sub-optimal compared to our novel
augmentation-based splitting strategies that further expand the training split
with the same number of labeled data. Taken together, our contributions on the
data augmentation strategies yield a strong training recipe for few-shot text
classification tasks.
- Abstract(参考訳): データ拡張は、学習モデルの性能を高める重要な要素である。
数少ないテキスト分類のための以前のデータ拡張手法は、大きなパフォーマンス向上につながった。
しかし、自然言語の複雑な構成構造を捉えようとは設計されていない。
その結果、有理で多様な文構造を持つサンプルの生成に失敗した。
そこで本研究では,Lexicalized Probabilistic context-free grammars (ALP) を用いて,多種多様な構文構造を持つ拡張サンプルを生成するデータ拡張について述べる。
辞書化されたPCFG構文解析木は、特定のドメインの専門家なしで、構文的に保存可能な方法で様々な単語選択を最大化する構文フレームを生成するために、構成と依存関係の両方を考慮する。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
第2の貢献として,データ拡張手法が機能する時,列車間分割手法を考察する。
従来のトレーニング分割と検証セットの分割は,ラベル付きデータでトレーニング分割をさらに拡大する,新たな拡張ベースの分割戦略と比較して,サブ最適であると実証的に主張する。
データ拡張戦略に対する私たちのコントリビューションは、数ショットのテキスト分類タスクのための強力なトレーニングレシピを提供します。
関連論文リスト
- TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding [56.794981024301094]
自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
論文 参考訳(メタデータ) (2022-05-12T15:25:12Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Constructing Contrastive samples via Summarization for Text
Classification with limited annotations [46.53641181501143]
テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。
我々はこれらのサンプルを教師付きコントラスト学習に使用し、アノテーションを限定したより良いテキスト表現を得る。
実世界のテキスト分類データセット(Amazon-5、Yelp-5、AG News)の実験では、提案したコントラスト学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2021-04-11T20:13:24Z) - Substructure Substitution: Structured Data Augmentation for NLP [55.69800855705232]
SUB2は、同じラベルを持つサブ構造を置換して新しい例を生成する。
より一般的なタスクでは、選挙区解析木に基づくSUB2のバリエーションを示す。
ほとんどの場合、SUB2による強化データセットによるトレーニングは、元のトレーニングセットでのトレーニングよりも優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-01-02T09:54:24Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。