論文の概要: Classifying Emails into Human vs Machine Category
- arxiv url: http://arxiv.org/abs/2112.07742v1
- Date: Tue, 14 Dec 2021 20:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 06:41:50.173877
- Title: Classifying Emails into Human vs Machine Category
- Title(参考訳): メールを人間vsマシンカテゴリに分類する
- Authors: Changsung Kang, Hongwei Shang, Jean-Marc Langlois
- Abstract要約: Yahoo Mailは個人メールと機械メールを区別するために必須の製品である。
メッセージレベルでのディープラーニングモデルの構築を提案する。
この完全なモデルは、現在の運用システムにデプロイされています。
- 参考スコア(独自算出の注目度): 0.6614418593039343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is an essential product requirement of Yahoo Mail to distinguish between
personal and machine-generated emails. The old production classifier in Yahoo
Mail was based on a simple logistic regression model. That model was trained by
aggregating features at the SMTP address level. We propose building deep
learning models at the message level. We built and trained four individual CNN
models: (1) a content model with subject and content as input; (2) a sender
model with sender email address and name as input; (3) an action model by
analyzing email recipients' action patterns and correspondingly generating
target labels based on senders' opening/deleting behaviors; (4) a salutation
model by utilizing senders' "explicit salutation" signal as positive labels.
Next, we built a final full model after exploring different combinations of the
above four models. Experimental results on editorial data show that our full
model improves the adjusted-recall from 70.5% to 78.8% compared to the old
production model, while at the same time lifts the precision from 94.7% to
96.0%. Our full model also significantly beats the state-of-the-art Bert model
at this task. This full model has been deployed into the current production
system (Yahoo Mail 6).
- Abstract(参考訳): Yahoo Mailは個人メールと機械メールを区別するために必須の製品である。
Yahoo Mailの古いプロダクション分類器は単純なロジスティック回帰モデルに基づいていた。
このモデルはSMTPアドレスレベルでのアグリゲーション機能によって訓練された。
メッセージレベルでのディープラーニングモデルの構築を提案する。
我々は,(1)対象と内容を入力とするコンテンツモデル,(2)送信者のメールアドレスと名前を入力とする送信者モデル,(3)受信者の行動パターンを解析し,送信者の開閉・削除行動に基づいてターゲットラベルを生成するアクションモデル,(4)送信者の「明示的敬礼」信号を正のラベルとして利用した敬礼モデル,の4つの個別CNNモデルを構築・訓練した。
次に、上記の4つのモデルの異なる組み合わせを探索した後、最終モデルを構築しました。
編集データを用いた実験の結果,本モデルでは,本モデルと比較して調整リコールを70.5%から78.8%に改善するとともに,精度を94.7%から96.0%に向上させた。
私たちのフルモデルは、このタスクにおける最先端のBertモデルを大きく上回っています。
このフルモデルは現在のプロダクションシステム(yahoo mail 6)にデプロイされている。
関連論文リスト
- All models are wrong, some are useful: Model Selection with Limited Labels [49.62984196182567]
本稿では,事前学習した分類器をラベル効率で選択するフレームワークであるMODEL SELECTORを紹介する。
MODEL SELECTOR はラベル付きデータの必要性を劇的に減らし,最良あるいは最良に近い性能のモデルを選択することを示す。
モデル選択におけるMODEL SELECTORのロバスト性をさらに強調し, 最良モデルを選択する場合, ラベル付けコストを最大72.41%削減する。
論文 参考訳(メタデータ) (2024-10-17T14:45:56Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - PROMINET: Prototype-based Multi-View Network for Interpretable Email
Response Prediction [12.727146945870809]
本研究では,メールデータからの意味情報と構造情報を組み込んだプロトタイプベースのマルチビューネットワーク(PROMINET)を提案する。
モデルマップは意味と構造を学習し、文書、文、フレーズなど、異なるレベルの粒度のトレーニングデータ中のサンプルを観察した。
学習したプロトタイプは、メールのテキスト編集を強化し、効果的なメール応答の可能性を高めるための提案を生成する可能性も示している。
論文 参考訳(メタデータ) (2023-10-25T16:39:00Z) - Who's Harry Potter? Approximate Unlearning in LLMs [4.821438899378393]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。
これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。
本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T17:48:14Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Universal Spam Detection using Transfer Learning of BERT Model [0.0]
この原稿は、事前訓練されたGoogleの変換器による双方向表現(BERT)を用いた新しいユニバーサルスパム検出モデルを実証した。
Enron、Spamassain、Lingspam、およびSpamtextメッセージ分類データセットの異なる方法でモデルを個別にトレーニングした。
総合的な精度は97%に達し、F1スコアは0.96である。
論文 参考訳(メタデータ) (2022-02-07T19:37:39Z) - Investigation of Sentiment Controllable Chatbot [50.34061353512263]
本稿では,反応の感情をスケールまたは調整する4つのモデルについて検討する。
モデルはペルソナベースのモデル、強化学習、プラグアンドプレイモデル、CycleGANである。
入力に対して応答が妥当かどうかを推定するために,機械評価メトリクスを開発する。
論文 参考訳(メタデータ) (2020-07-11T16:04:30Z) - Learning with Weak Supervision for Email Intent Detection [56.71599262462638]
本稿では,メールの意図を検出するために,ユーザアクションを弱い監視源として活用することを提案する。
メール意図識別のためのエンドツーエンドの堅牢なディープニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-05-26T23:41:05Z) - Large Scale Multi-Actor Generative Dialog Modeling [22.286624163849893]
本稿では,俳優のペルソナにおける複数回会話を確率的にモデル化するために,過去の参照会話を条件づけた言語モデルである生成会話制御モデルを紹介する。
モデルのサイズを117Mから8.3Bに拡大すると、1.7Mの会話で23.14から13.14に改善される。
過去の会話を条件付きでモデル化することで、自動評価において難易度が0.47向上することがわかった。
論文 参考訳(メタデータ) (2020-05-13T01:56:00Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。