論文の概要: Real-time and Zero-footprint Bag of Synthetic Syllables Algorithm for E-mail Spam Detection Using Subject Line and Short Text Fields
- arxiv url: http://arxiv.org/abs/2511.00118v1
- Date: Fri, 31 Oct 2025 05:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.621064
- Title: Real-time and Zero-footprint Bag of Synthetic Syllables Algorithm for E-mail Spam Detection Using Subject Line and Short Text Fields
- Title(参考訳): 主観線と短文フィールドを用いたメールスパム検出のための合成シラブルスのリアルタイム・ゼロフットプリントバッグ
- Authors: Stanislav Selitskiy,
- Abstract要約: シンセティック・シラブルズのバグは、電子メールの主題線やその他の短いテキストフィールドの短いテキストに適用される。
提案アルゴリズムは,メールの各対象行に対して,200円のスパース次元ハッシュあるいはベクトルを生成する。
このアルゴリズムは、永続ストレージ、辞書、追加のハードウェアアップグレード、ソフトウェアパッケージを必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary e-mail services have high availability expectations from the customers and are resource-strained because of the high-volume throughput and spam attacks. Deep Machine Learning architectures, which are resource hungry and require off-line processing due to the long processing times, are not acceptable at the front line filters. On the other hand, the bulk of the incoming spam is not sophisticated enough to bypass even the simplest algorithms. While the small fraction of the intelligent, highly mutable spam can be detected only by the deep architectures, the stress on them can be unloaded by the simple near real-time and near zero-footprint algorithms such as the Bag of Synthetic Syllables algorithm applied to the short texts of the e-mail subject lines and other short text fields. The proposed algorithm creates a circa 200 sparse dimensional hash or vector for each e-mail subject line that can be compared for the cosine or euclidean proximity distance to find similarities to the known spammy subjects. The algorithm does not require any persistent storage, dictionaries, additional hardware upgrades or software packages. The performance of the algorithm is presented on the one day of the real SMTP traffic.
- Abstract(参考訳): 現代の電子メールサービスは、顧客から高い可用性を期待されており、スループットとスパム攻撃のためにリソースが制限されている。
リソースが空き、長い処理時間のためにオフライン処理を必要とするDeep Machine Learningアーキテクチャは、フロントラインフィルタでは受け入れられない。
一方、受信するスパムの大部分は、最も単純なアルゴリズムをバイパスするほど洗練されていない。
知的で高度に可変なスパムのごく一部は、深層アーキテクチャによってのみ検出できるが、それらに対するストレスは、電子メールの主文行やその他の短文フィールドの短文に適用される合成シラブルスのバグのような、単純なリアルタイムに近いゼロフットプリントアルゴリズムによって解き放つことができる。
提案アルゴリズムは,コサインやユークリッドの近接距離と比較し,既知のスパム被写体と類似性を見出すことが可能な,メール対象線毎の約200次元ハッシュまたはベクトルを生成する。
このアルゴリズムは、永続ストレージ、辞書、追加のハードウェアアップグレード、ソフトウェアパッケージを必要としない。
実際のSMTPトラフィックの1日にアルゴリズムの性能を示す。
関連論文リスト
- Low-Complexity Semantic Packet Aggregation for Token Communication via Lookahead Search [32.63323958382152]
本稿では,トークンのパケット化に着目し,平均トークン類似度(ATS)を最大化する。
これを解決するために,ルックアヘッド検索(SemPA-Look)を用いたセマンティックアグリゲーションの新しいフレームワークを提案する。
SemPA-Lookは、リプレースせずにパケット内のトークン候補をサンプリングするルックアヘッド検索インスパイアされたアルゴリズムを適用している。
論文 参考訳(メタデータ) (2025-06-24T09:25:44Z) - Bridging Classical and Quantum String Matching: A Computational Reformulation of Bit-Parallelism [0.0]
本稿では,ビット並列文字列マッチングアルゴリズムを量子フレームワークに変換する新しい経路を提案する。
ビット並列モデルに量子探索を埋め込むことにより、文字列マッチングの時間的複雑さを低減する。
また,Groverの探索による2次高速化を実現するため,性能の向上も図っている。
論文 参考訳(メタデータ) (2025-03-07T17:24:00Z) - Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。
OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:59:59Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - A Late Multi-Modal Fusion Model for Detecting Hybrid Spam E-mail [5.182080825408661]
ハイブリッドスパムメールの検出を目的とした研究がいくつか行われている。
光文字認識はテキストと画像のハイブリッドスパム処理において非常に成功した技術である。
テキストと画像のハイブリッドスパム電子メールフィルタリングシステムのための,新しいマルチモーダル融合訓練フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T10:47:12Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z) - Learning to Accelerate Heuristic Searching for Large-Scale Maximum
Weighted b-Matching Problems in Online Advertising [51.97494906131859]
バイパルタイトbマッチングはアルゴリズム設計の基本であり、経済市場や労働市場などに広く適用されている。
既存の正確で近似的なアルゴリズムは、通常そのような設定で失敗する。
我々は、以前の事例から学んだ知識を活用して、新しい問題インスタンスを解決するtextttNeuSearcherを提案する。
論文 参考訳(メタデータ) (2020-05-09T02:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。