論文の概要: What Have Been Learned & What Should Be Learned? An Empirical Study of
How to Selectively Augment Text for Classification
- arxiv url: http://arxiv.org/abs/2109.00175v1
- Date: Wed, 1 Sep 2021 04:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:26:35.636576
- Title: What Have Been Learned & What Should Be Learned? An Empirical Study of
How to Selectively Augment Text for Classification
- Title(参考訳): 何を学んだのか、何を学ぶべきか?
分類のためのテキストの選択的増補法に関する実証的研究
- Authors: Biyang Guo, Sonqiao Han, Hailiang Huang
- Abstract要約: 本稿では,STA(Selective Text Augmentation)を用いてテキストを選択的に拡張する手法を提案する。
4つの英語と中国語のテキスト分類ベンチマークデータセットの実験により、STAは非選択的なテキスト拡張法を大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text augmentation techniques are widely used in text classification problems
to improve the performance of classifiers, especially in low-resource
scenarios. Whilst lots of creative text augmentation methods have been
designed, they augment the text in a non-selective manner, which means the less
important or noisy words have the same chances to be augmented as the
informative words, and thereby limits the performance of augmentation. In this
work, we systematically summarize three kinds of role keywords, which have
different functions for text classification, and design effective methods to
extract them from the text. Based on these extracted role keywords, we propose
STA (Selective Text Augmentation) to selectively augment the text, where the
informative, class-indicating words are emphasized but the irrelevant or noisy
words are diminished. Extensive experiments on four English and Chinese text
classification benchmark datasets demonstrate that STA can substantially
outperform the non-selective text augmentation methods.
- Abstract(参考訳): テキスト拡張技術は、特に低リソースシナリオにおいて分類器の性能を向上させるために、テキスト分類問題で広く使われている。
多くの創造的なテキスト拡張手法が設計されている一方で、テキストを非選択的な方法で拡張するので、重要でない単語や騒がしい単語は、情報的な単語と同じ可能性を持ち、拡張のパフォーマンスを制限できる。
本研究では,テキスト分類に異なる機能を持つ3種類のロールキーワードを体系的に要約し,テキストから抽出する効果的な手法を設計する。
抽出されたロールキーワードに基づいて,情報的,類別的な単語が強調されるが,無関係な単語やうるさい単語が減少するテキストを選択的に拡張するstaを提案する。
4つの英語と中国語のテキスト分類ベンチマークデータセットに関する広範囲な実験は、staが非選択的なテキスト拡張法を大きく上回ることを示している。
関連論文リスト
- Evaluating Text Classification Robustness to Part-of-Speech Adversarial Examples [0.6445605125467574]
逆の例は意思決定プロセスを騙すために設計された入力であり、人間には理解できないことを意図している。
テキストベースの分類システムでは、入力の変更(テキストの文字列)は常に認識可能である。
テキストベースの逆数例の質を向上させるためには、入力テキストのどの要素に注目する価値があるかを知る必要がある。
論文 参考訳(メタデータ) (2024-08-15T18:33:54Z) - Enhancing Multilingual Voice Toxicity Detection with Speech-Text Alignment [4.2936749846785345]
音声の毒性分類は、音声の意味的内容に大きく依存する。
テキストのセマンティック埋め込みを多ラベル音声毒性分類器に組み込むために,クロスモーダル学習を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:56:53Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - RankAug: Augmented data ranking for text classification [0.0]
RankAugはテキストレベルのアプローチで、上位の強化テキストを検出し、フィルタリングする。
分類精度を35%まで向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-08T08:47:49Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Selective Text Augmentation with Word Roles for Low-Resource Text
Classification [3.4806267677524896]
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。
本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T08:13:11Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt
Verbalizer for Text Classification [68.3291372168167]
我々は、外部知識を言語化に取り入れることに集中し、知識に富んだプロンプトチューニング(KPT)を形成する。
我々は,外部知識ベース(KB)を用いてラベル語空間を拡張し,拡張されたラベル語空間で予測する前に PLM 自体で拡張されたラベル語空間を洗練する。
ゼロと少数ショットのテキスト分類タスクの実験は、知識のあるプロンプトチューニングの有効性を示す。
論文 参考訳(メタデータ) (2021-08-04T13:00:16Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。