論文の概要: ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification
- arxiv url: http://arxiv.org/abs/2112.11916v1
- Date: Thu, 16 Dec 2021 09:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 12:27:46.585718
- Title: ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification
- Title(参考訳): ALP:Lexicalized PCFGsを用いたFew-Shotテキスト分類のためのデータ拡張
- Authors: Hazel Kim, Daecheol Woo, Seong Joon Oh, Jeong-Won Cha, Yo-Sub Han
- Abstract要約: Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
- 参考スコア(独自算出の注目度): 11.742065170002162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data augmentation has been an important ingredient for boosting performances
of learned models. Prior data augmentation methods for few-shot text
classification have led to great performance boosts. However, they have not
been designed to capture the intricate compositional structure of natural
language. As a result, they fail to generate samples with plausible and diverse
sentence structures. Motivated by this, we present the data Augmentation using
Lexicalized Probabilistic context-free grammars (ALP) that generates augmented
samples with diverse syntactic structures with plausible grammar. The
lexicalized PCFG parse trees consider both the constituents and dependencies to
produce a syntactic frame that maximizes a variety of word choices in a
syntactically preservable manner without specific domain experts. Experiments
on few-shot text classification tasks demonstrate that ALP enhances many
state-of-the-art classification methods. As a second contribution, we delve
into the train-val splitting methodologies when a data augmentation method
comes into play. We argue empirically that the traditional splitting of
training and validation sets is sub-optimal compared to our novel
augmentation-based splitting strategies that further expand the training split
with the same number of labeled data. Taken together, our contributions on the
data augmentation strategies yield a strong training recipe for few-shot text
classification tasks.
- Abstract(参考訳): データ拡張は、学習モデルの性能を高める重要な要素である。
数少ないテキスト分類のための以前のデータ拡張手法は、大きなパフォーマンス向上につながった。
しかし、自然言語の複雑な構成構造を捉えようとは設計されていない。
その結果、有理で多様な文構造を持つサンプルの生成に失敗した。
そこで本研究では,Lexicalized Probabilistic context-free grammars (ALP) を用いて,多種多様な構文構造を持つ拡張サンプルを生成するデータ拡張について述べる。
辞書化されたPCFG構文解析木は、特定のドメインの専門家なしで、構文的に保存可能な方法で様々な単語選択を最大化する構文フレームを生成するために、構成と依存関係の両方を考慮する。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
第2の貢献として,データ拡張手法が機能する時,列車間分割手法を考察する。
従来のトレーニング分割と検証セットの分割は,ラベル付きデータでトレーニング分割をさらに拡大する,新たな拡張ベースの分割戦略と比較して,サブ最適であると実証的に主張する。
データ拡張戦略に対する私たちのコントリビューションは、数ショットのテキスト分類タスクのための強力なトレーニングレシピを提供します。
関連論文リスト
- Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。
本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文 参考訳(メタデータ) (2024-11-22T12:37:41Z) - Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - Selective Text Augmentation with Word Roles for Low-Resource Text
Classification [3.4806267677524896]
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。
本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T08:13:11Z) - TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding [56.794981024301094]
自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
論文 参考訳(メタデータ) (2022-05-12T15:25:12Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。