論文の概要: Selective Text Augmentation with Word Roles for Low-Resource Text
Classification
- arxiv url: http://arxiv.org/abs/2209.01560v1
- Date: Sun, 4 Sep 2022 08:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:27:20.843455
- Title: Selective Text Augmentation with Word Roles for Low-Resource Text
Classification
- Title(参考訳): 低リソーステキスト分類のための単語ロール付き選択的テキスト拡張
- Authors: Biyang Guo, Songqiao Han, Hailiang Huang
- Abstract要約: 異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。
本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
- 参考スコア(独自算出の注目度): 3.4806267677524896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation techniques are widely used in text classification tasks to
improve the performance of classifiers, especially in low-resource scenarios.
Most previous methods conduct text augmentation without considering the
different functionalities of the words in the text, which may generate
unsatisfactory samples. Different words may play different roles in text
classification, which inspires us to strategically select the proper roles for
text augmentation. In this work, we first identify the relationships between
the words in a text and the text category from the perspectives of statistical
correlation and semantic similarity and then utilize them to divide the words
into four roles -- Gold, Venture, Bonus, and Trivial words, which have
different functionalities for text classification. Based on these word roles,
we present a new augmentation technique called STA (Selective Text
Augmentation) where different text-editing operations are selectively applied
to words with specific roles. STA can generate diverse and relatively clean
samples, while preserving the original core semantics, and is also quite simple
to implement. Extensive experiments on 5 benchmark low-resource text
classification datasets illustrate that augmented samples produced by STA
successfully boost the performance of classification models which significantly
outperforms previous non-selective methods, including two large language
model-based techniques. Cross-dataset experiments further indicate that STA can
help the classifiers generalize better to other datasets than previous methods.
- Abstract(参考訳): データ拡張技術はテキスト分類タスクにおいて、特に低リソースシナリオにおいて、分類器の性能を向上させるために広く使われている。
従来の手法では、テキスト内の単語の異なる機能を考慮することなくテキスト拡張を行い、不満足なサンプルを生成する。
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究は,まず,テキスト内の単語とテキストカテゴリーの関係を,統計的相関性や意味的類似性の観点から識別し,それらを用いて,テキスト分類の異なる機能を持つゴールド,ベンチャー,ボヌス,トライヴィアルの4つの役割に分割する。
これらの単語の役割に基づいて,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案し,特定の役割を持つ単語に対して,異なるテキスト編集操作を選択的に適用する。
STAは、オリジナルのコアセマンティクスを保持しながら、多様で比較的クリーンなサンプルを生成することができ、実装も非常に簡単である。
5つのベンチマークの低リソーステキスト分類データセットに対する大規模な実験により、STAが生成した拡張サンプルは、従来の非選択的手法よりも大幅に優れた分類モデルの性能を向上させることができた。
クロスデータセットの実験は、staが以前のメソッドよりも、他のデータセットへの分類器の一般化に役立つことをさらに示している。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - RankAug: Augmented data ranking for text classification [0.0]
RankAugはテキストレベルのアプローチで、上位の強化テキストを検出し、フィルタリングする。
分類精度を35%まで向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-08T08:47:49Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - What Have Been Learned & What Should Be Learned? An Empirical Study of
How to Selectively Augment Text for Classification [0.0]
本稿では,STA(Selective Text Augmentation)を用いてテキストを選択的に拡張する手法を提案する。
4つの英語と中国語のテキスト分類ベンチマークデータセットの実験により、STAは非選択的なテキスト拡張法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2021-09-01T04:03:11Z) - TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。
16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文 参考訳(メタデータ) (2020-12-11T19:23:28Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Exploiting Class Labels to Boost Performance on Embedding-based Text
Classification [16.39344929765961]
異なる種類の埋め込みは、テキスト分類に使用される機能として、最近デファクトスタンダードになっている。
本稿では,単語の埋め込みを計算する際に,高頻度のカテゴリー排他語を重み付け可能な重み付け方式TF-CRを提案する。
論文 参考訳(メタデータ) (2020-06-03T08:53:40Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。