論文の概要: Weaponizing Unicodes with Deep Learning -- Identifying Homoglyphs with
Weakly Labeled Data
- arxiv url: http://arxiv.org/abs/2010.04382v4
- Date: Tue, 22 Dec 2020 18:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:15:31.427359
- Title: Weaponizing Unicodes with Deep Learning -- Identifying Homoglyphs with
Weakly Labeled Data
- Title(参考訳): 深層学習によるUnicodeのWeaponizing --弱ラベル付きデータによるホモグリフの同定
- Authors: Perry Deng, Cooper Linsky, Matthew Wright
- Abstract要約: 視覚的に類似した文字(ホモグリフ)は、社会工学的な攻撃やスパムや盗作検知の回避に使用できる。
本研究では, 学習, 移動学習, 拡張モデルについて検討し, ホモグリフの可能性を同定する。
また、我々のモデルを用いて8000以上の未知のホモスグリフを予測し、多くのものが真の正であることを示す良い早期の兆候を見出す。
- 参考スコア(独自算出の注目度): 11.434810426156877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually similar characters, or homoglyphs, can be used to perform social
engineering attacks or to evade spam and plagiarism detectors. It is thus
important to understand the capabilities of an attacker to identify homoglyphs
-- particularly ones that have not been previously spotted -- and leverage them
in attacks. We investigate a deep-learning model using embedding learning,
transfer learning, and augmentation to determine the visual similarity of
characters and thereby identify potential homoglyphs. Our approach uniquely
takes advantage of weak labels that arise from the fact that most characters
are not homoglyphs. Our model drastically outperforms the Normalized
Compression Distance approach on pairwise homoglyph identification, for which
we achieve an average precision of 0.97. We also present the first attempt at
clustering homoglyphs into sets of equivalence classes, which is more efficient
than pairwise information for security practitioners to quickly lookup
homoglyphs or to normalize confusable string encodings. To measure clustering
performance, we propose a metric (mBIOU) building on the classic
Intersection-Over-Union (IOU) metric. Our clustering method achieves 0.592
mBIOU, compared to 0.430 for the naive baseline. We also use our model to
predict over 8,000 previously unknown homoglyphs, and find good early
indications that many of these may be true positives. Source code and list of
predicted homoglyphs are uploaded to Github:
https://github.com/PerryXDeng/weaponizing_unicode
- Abstract(参考訳): 視覚的に類似した文字(ホモグリフ)は、社会工学的な攻撃やスパムや盗作検知の回避に使用できる。
したがって、攻撃者がホモグリフ(特にこれまで発見されていないもの)を識別し、攻撃に活用する能力を理解することが重要である。
埋め込み学習,移動学習,拡張を用いた深層学習モデルを用いて,文字の視覚的類似性を判定し,将来的なホモグリフを同定する。
我々のアプローチは、ほとんどの文字がホモグリフではないという事実から生じる弱いラベルを独特に活用する。
本モデルでは,一対のホモグリフ同定における正規化圧縮距離法を劇的に上回り,平均精度0。
また,ホモグリフを同値類の集合にクラスタリングする最初の試みを示す。これは,セキュリティ実践者がホモグリフを素早く検索したり,使用可能な文字列エンコーディングを正規化するために,ペアワイズ情報よりも効率的である。
クラスタリング性能を測定するために,従来のIOU(Intersection-Over-Union)尺度に基づくメートル法(mBIOU)を提案する。
クラスタリング法は0.592 mBIOU を達成するが,本法では0.430 である。
また、我々のモデルを用いて8000以上の未知のホモグリフを予測し、それらの多くが真の正であることを示す良い早期の兆候を見つける。
ソースコードと予測ホモグリフのリストはGithubにアップロードされる: https://github.com/PerryXDeng/weaponizing_unicode
関連論文リスト
- Pairwise Similarity Learning is SimPLE [104.14303849615496]
我々は、汎用的で重要な学習問題、ペアワイズ類似性学習(PSL)に焦点を当てる。
PSLは、オープンセットの顔認識、話者検証、画像検索、人物の再識別など、幅広い重要な応用を仮定する。
我々は、機能/プロキシの正規化も角マージンも必要としない、SimPLEと呼ばれる驚くほど単純なプロキシフリー手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T23:56:47Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - GlyphNet: Homoglyph domains dataset and detection using attention-based
Convolutional Neural Networks [1.0312968200748118]
ホモグリフ攻撃は、合法的なドメインと区別しにくい非合法なドメインを生成する。
既存のアプローチでは、一次言語に基づくタスクに適用される単純な文字列ベースの比較手法が使用されている。
我々のモデルでは、データセット上の0.93AUCでホモグリフ攻撃を検出する際に、最先端の精度に到達できることが示される。
論文 参考訳(メタデータ) (2023-06-17T17:16:53Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Non-contrastive representation learning for intervals from well logs [58.70164460091879]
石油・ガス産業における表現学習問題は、ログデータに基づく表現を一定間隔で提供するモデルを構築することを目的としている。
可能なアプローチの1つは、自己教師付き学習(SSL)である。
私たちは、よくログするデータのための非コントラストSSLを最初に導入しました。
論文 参考訳(メタデータ) (2022-09-28T13:27:10Z) - Leveraging Dependency Grammar for Fine-Grained Offensive Language
Detection using Graph Convolutional Networks [0.5457150493905063]
我々はTwitterにおける攻撃的言語検出の問題に対処する。
文の係り受け解析木に構文的特徴を統合するSyLSTMという新しい手法を提案する。
その結果,提案手法は,パラメータの桁数を桁違いに減らして,最先端のBERTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-05-26T05:27:50Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - New Benchmarks for Learning on Non-Homophilous Graphs [20.082182515715182]
ホモフィリー原理を満たさないノードラベル関係を持つ改良されたグラフデータセットを多数提示する。
我々はまた、異なる体制における既存の措置よりも適しているホモフィリーの存在または不在の新しい尺度を紹介します。
論文 参考訳(メタデータ) (2021-04-03T13:45:06Z) - PhishGAN: Data Augmentation and Identification of Homoglpyh Attacks [0.0]
ホモグリフ攻撃(Homoglyph attack)は、ハッカーがフィッシングを行うのに使われる一般的なテクニックである。実際のフィッシングと視覚的に類似したドメイン名やリンクは、攻撃を難読化するためにペニーコードによって生成される。
本稿では,ヒエログリフの画像を生成するために,条件付き生成適応ネットワーク(GAN)であるPhishGANを用いる方法を示す。
論文 参考訳(メタデータ) (2020-06-24T13:59:09Z) - FixMatch: Simplifying Semi-Supervised Learning with Consistency and
Confidence [93.91751021370638]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルの性能を向上させる効果的な手段を提供する。
本稿では、整合正則化と擬似ラベル付けという2つの共通SSL手法の単純な組み合わせのパワーを実証する。
筆者らのアルゴリズムであるFixMatchは、まず、弱拡張未ラベル画像上のモデルの予測を用いて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2020-01-21T18:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。