論文の概要: Spam-T5: Benchmarking Large Language Models for Few-Shot Email Spam
Detection
- arxiv url: http://arxiv.org/abs/2304.01238v2
- Date: Wed, 5 Apr 2023 13:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 14:42:13.971489
- Title: Spam-T5: Benchmarking Large Language Models for Few-Shot Email Spam
Detection
- Title(参考訳): Spam-T5: メールスパム検出のための大規模言語モデルのベンチマーク
- Authors: Maxime Labonne and Sean Moran
- Abstract要約: 本稿では,メールスパム検出における大規模言語モデル(LLM)の有効性について検討する。
BERT-like、Sentence Transformers、Seq2Seqの3つの異なるモデルを比較した。
4つの公開データセットでこれらのモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 3.3504365823045044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper investigates the effectiveness of large language models (LLMs) in
email spam detection by comparing prominent models from three distinct
families: BERT-like, Sentence Transformers, and Seq2Seq. Additionally, we
examine well-established machine learning techniques for spam detection, such
as Na\"ive Bayes and LightGBM, as baseline methods. We assess the performance
of these models across four public datasets, utilizing different numbers of
training samples (full training set and few-shot settings). Our findings reveal
that, in the majority of cases, LLMs surpass the performance of the popular
baseline techniques, particularly in few-shot scenarios. This adaptability
renders LLMs uniquely suited to spam detection tasks, where labeled samples are
limited in number and models require frequent updates. Additionally, we
introduce Spam-T5, a Flan-T5 model that has been specifically adapted and
fine-tuned for the purpose of detecting email spam. Our results demonstrate
that Spam-T5 surpasses baseline models and other LLMs in the majority of
scenarios, particularly when there are a limited number of training samples
available. Our code is publicly available at
https://github.com/jpmorganchase/emailspamdetection.
- Abstract(参考訳): 本稿では,メールスパム検出における大規模言語モデル (LLM) の有効性について,BERT-like, Sentence Transformers, Seq2Seq の3家系の著名なモデルを比較検討した。
さらに,Na\"ive Bayes や LightGBM などのスパム検出のための機械学習手法をベースライン手法として検討した。
4つの公開データセットにまたがってこれらのモデルの性能を評価し、異なる数のトレーニングサンプル(フルトレーニングセットと数ショット設定)を利用する。
その結果,ほとんどのケースでllmが一般的なベースライン技術,特に少数のシナリオのパフォーマンスを上回っていることが明らかとなった。
この適応性は、ラベル付きサンプルの数に制限があり、モデルは頻繁な更新を必要とするスパム検出タスクに特有のLLMをレンダリングする。
さらに,eメールのスパム検出に特化・微調整されたflan-t5モデルについても紹介する。
以上の結果から,Spam-T5 がベースラインモデルや他の LLM をはるかに上回っていることが明らかとなった。
私たちのコードはhttps://github.com/jpmorganchase/emailspamdetectionで公開されています。
関連論文リスト
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Self-supervised learning of multi-omics embeddings in the low-label,
high-data regime [0.0]
対照的に、自己教師型学習(SSL)は、ユニモーダル、mRNA、RPPAの発現データからがんのタイプを予測するモデルを訓練するために用いられる。
遅延融合モデルでは、各オミクスがそれぞれのサブネットワークに渡され、その出力が平均化され、事前学習または下流の目的関数に渡される。
マルチモーダルプレトレーニングは単一オミクスからの予測を改善することが示されており、多くの非ラベル付きマルチモーダルサンプルを持つデータセットでは有用であるが、ラベル付きサンプルはほとんどない。
論文 参考訳(メタデータ) (2023-11-16T15:32:22Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate
Model [9.878882790700786]
ベイジアンサロゲートモデルを導入し、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間する。
実験結果から,提案手法はクエリコストの低い既存手法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Few-shot learning approaches for classifying low resource domain
specific software requirements [1.1470070927586016]
少ないショットラーニング(Few-shot learning)は、いくつかの注釈付きサンプルを使用するディープラーニングの一種である。
我々の実験は、BOSCH自動車ドメインテキストソフトウェア要件を3つのカテゴリに分類することに焦点を当てた。
SciBERTとDeBERTaベースのモデルは15のトレーニングサンプルが最も正確である傾向にあるが、注記サンプルの数がシームズやT5ベースのモデルと比較して50に増加するにつれて、その性能向上は最小限に抑えられる。
論文 参考訳(メタデータ) (2023-02-14T10:19:23Z) - Universal Spam Detection using Transfer Learning of BERT Model [0.0]
この原稿は、事前訓練されたGoogleの変換器による双方向表現(BERT)を用いた新しいユニバーサルスパム検出モデルを実証した。
Enron、Spamassain、Lingspam、およびSpamtextメッセージ分類データセットの異なる方法でモデルを個別にトレーニングした。
総合的な精度は97%に達し、F1スコアは0.96である。
論文 参考訳(メタデータ) (2022-02-07T19:37:39Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling [10.732163031244651]
Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
論文 参考訳(メタデータ) (2021-09-04T08:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。