論文の概要: Text Data Augmentation: Towards better detection of spear-phishing
emails
- arxiv url: http://arxiv.org/abs/2007.02033v2
- Date: Thu, 25 Mar 2021 14:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:09:27.998199
- Title: Text Data Augmentation: Towards better detection of spear-phishing
emails
- Title(参考訳): テキストデータ拡張:スピアフィッシングメールの検出改善に向けて
- Authors: Mehdi Regina and Maxime Meyer and S\'ebastien Goutal
- Abstract要約: 社内の英語テキストを増強するためのコーパスとタスク拡張フレームワークを提案する。
提案手法は,BERT言語モデル,多段階のバックトランスレーション,アグノシクスなど,様々な手法を組み合わせる。
本研究では,公開モデルとコーパスを用いて,テキスト分類タスクの性能向上を図っている。
- 参考スコア(独自算出の注目度): 1.6556358263455926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text data augmentation, i.e., the creation of new textual data from an
existing text, is challenging. Indeed, augmentation transformations should take
into account language complexity while being relevant to the target Natural
Language Processing (NLP) task (e.g., Machine Translation, Text
Classification). Initially motivated by an application of Business Email
Compromise (BEC) detection, we propose a corpus and task agnostic augmentation
framework used as a service to augment English texts within our company. Our
proposal combines different methods, utilizing BERT language model, multi-step
back-translation and heuristics. We show that our augmentation framework
improves performances on several text classification tasks using publicly
available models and corpora as well as on a BEC detection task. We also
provide a comprehensive argumentation about the limitations of our augmentation
framework.
- Abstract(参考訳): テキストデータ拡張、すなわち、既存のテキストから新しいテキストデータを作成することは困難である。
実際、拡張変換は、対象自然言語処理(nlp)タスク(例えば、機械翻訳、テキスト分類)に関連している一方で、言語の複雑さを考慮すべきである。
当初、ビジネスメール妥協(Business Email Compromise, BEC)検出の適用を動機として、企業内の英語テキストを拡大するためのサービスとして使用されるコーパスとタスク非依存拡張フレームワークを提案する。
提案手法は,BERT言語モデル,多段階のバックトランスレーション,ヒューリスティックスを併用する。
本稿では,BEC検出タスクだけでなく,公開されているモデルやコーパスを用いて,テキスト分類タスクの性能向上を図っている。
また、拡張フレームワークの限界に関する包括的な議論も提供します。
関連論文リスト
- Topic-to-essay generation with knowledge-based content selection [1.0625748132006634]
本稿では,言語モデルからの豊富な意味的知識をデコーダに統合する,コンテンツ選択モジュールを備えた新しいコピー機構モデルを提案する。
実験結果から,提案手法により得られたテキストの多様性を35%から59%向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-02-26T02:14:42Z) - Adapting Large Language Models to Domains via Reading Comprehension [86.24451681746676]
ドメイン固有コーパスの事前学習が大規模言語モデルに与える影響について検討する。
生のコーパスでのトレーニングはドメイン知識でモデルを養うが、問合せ能力を大幅に損なう。
生コーパスを可読テキストに変換する簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:17:52Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。