論文の概要: Weaponizing Unicodes with Deep Learning -- Identifying Homoglyphs with
Weakly Labeled Data
- arxiv url: http://arxiv.org/abs/2010.04382v4
- Date: Tue, 22 Dec 2020 18:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:15:31.427359
- Title: Weaponizing Unicodes with Deep Learning -- Identifying Homoglyphs with
Weakly Labeled Data
- Title(参考訳): 深層学習によるUnicodeのWeaponizing --弱ラベル付きデータによるホモグリフの同定
- Authors: Perry Deng, Cooper Linsky, Matthew Wright
- Abstract要約: 視覚的に類似した文字(ホモグリフ)は、社会工学的な攻撃やスパムや盗作検知の回避に使用できる。
本研究では, 学習, 移動学習, 拡張モデルについて検討し, ホモグリフの可能性を同定する。
また、我々のモデルを用いて8000以上の未知のホモスグリフを予測し、多くのものが真の正であることを示す良い早期の兆候を見出す。
- 参考スコア(独自算出の注目度): 11.434810426156877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually similar characters, or homoglyphs, can be used to perform social
engineering attacks or to evade spam and plagiarism detectors. It is thus
important to understand the capabilities of an attacker to identify homoglyphs
-- particularly ones that have not been previously spotted -- and leverage them
in attacks. We investigate a deep-learning model using embedding learning,
transfer learning, and augmentation to determine the visual similarity of
characters and thereby identify potential homoglyphs. Our approach uniquely
takes advantage of weak labels that arise from the fact that most characters
are not homoglyphs. Our model drastically outperforms the Normalized
Compression Distance approach on pairwise homoglyph identification, for which
we achieve an average precision of 0.97. We also present the first attempt at
clustering homoglyphs into sets of equivalence classes, which is more efficient
than pairwise information for security practitioners to quickly lookup
homoglyphs or to normalize confusable string encodings. To measure clustering
performance, we propose a metric (mBIOU) building on the classic
Intersection-Over-Union (IOU) metric. Our clustering method achieves 0.592
mBIOU, compared to 0.430 for the naive baseline. We also use our model to
predict over 8,000 previously unknown homoglyphs, and find good early
indications that many of these may be true positives. Source code and list of
predicted homoglyphs are uploaded to Github:
https://github.com/PerryXDeng/weaponizing_unicode
- Abstract(参考訳): 視覚的に類似した文字(ホモグリフ)は、社会工学的な攻撃やスパムや盗作検知の回避に使用できる。
したがって、攻撃者がホモグリフ(特にこれまで発見されていないもの)を識別し、攻撃に活用する能力を理解することが重要である。
埋め込み学習,移動学習,拡張を用いた深層学習モデルを用いて,文字の視覚的類似性を判定し,将来的なホモグリフを同定する。
我々のアプローチは、ほとんどの文字がホモグリフではないという事実から生じる弱いラベルを独特に活用する。
本モデルでは,一対のホモグリフ同定における正規化圧縮距離法を劇的に上回り,平均精度0。
また,ホモグリフを同値類の集合にクラスタリングする最初の試みを示す。これは,セキュリティ実践者がホモグリフを素早く検索したり,使用可能な文字列エンコーディングを正規化するために,ペアワイズ情報よりも効率的である。
クラスタリング性能を測定するために,従来のIOU(Intersection-Over-Union)尺度に基づくメートル法(mBIOU)を提案する。
クラスタリング法は0.592 mBIOU を達成するが,本法では0.430 である。
また、我々のモデルを用いて8000以上の未知のホモグリフを予測し、それらの多くが真の正であることを示す良い早期の兆候を見つける。
ソースコードと予測ホモグリフのリストはGithubにアップロードされる: https://github.com/PerryXDeng/weaponizing_unicode
関連論文リスト
- Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Generation is better than Modification: Combating High Class Homophily Variance in Graph Anomaly Detection [51.11833609431406]
異なるクラス間のホモフィリー分布の差は、ホモフィリックグラフやヘテロフィリックグラフよりも著しく大きい。
我々は、この現象を定量的に記述した、クラスホモフィリーバリアンスと呼ばれる新しい計量を導入する。
その影響を軽減するために,ホモフィリーエッジ生成グラフニューラルネットワーク(HedGe)と呼ばれる新しいGNNモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T14:26:53Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Pairwise Similarity Learning is SimPLE [104.14303849615496]
我々は、汎用的で重要な学習問題、ペアワイズ類似性学習(PSL)に焦点を当てる。
PSLは、オープンセットの顔認識、話者検証、画像検索、人物の再識別など、幅広い重要な応用を仮定する。
我々は、機能/プロキシの正規化も角マージンも必要としない、SimPLEと呼ばれる驚くほど単純なプロキシフリー手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T23:56:47Z) - GlyphNet: Homoglyph domains dataset and detection using attention-based
Convolutional Neural Networks [1.0312968200748118]
ホモグリフ攻撃は、合法的なドメインと区別しにくい非合法なドメインを生成する。
既存のアプローチでは、一次言語に基づくタスクに適用される単純な文字列ベースの比較手法が使用されている。
我々のモデルでは、データセット上の0.93AUCでホモグリフ攻撃を検出する際に、最先端の精度に到達できることが示される。
論文 参考訳(メタデータ) (2023-06-17T17:16:53Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Leveraging Dependency Grammar for Fine-Grained Offensive Language
Detection using Graph Convolutional Networks [0.5457150493905063]
我々はTwitterにおける攻撃的言語検出の問題に対処する。
文の係り受け解析木に構文的特徴を統合するSyLSTMという新しい手法を提案する。
その結果,提案手法は,パラメータの桁数を桁違いに減らして,最先端のBERTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-05-26T05:27:50Z) - New Benchmarks for Learning on Non-Homophilous Graphs [20.082182515715182]
ホモフィリー原理を満たさないノードラベル関係を持つ改良されたグラフデータセットを多数提示する。
我々はまた、異なる体制における既存の措置よりも適しているホモフィリーの存在または不在の新しい尺度を紹介します。
論文 参考訳(メタデータ) (2021-04-03T13:45:06Z) - PhishGAN: Data Augmentation and Identification of Homoglpyh Attacks [0.0]
ホモグリフ攻撃(Homoglyph attack)は、ハッカーがフィッシングを行うのに使われる一般的なテクニックである。実際のフィッシングと視覚的に類似したドメイン名やリンクは、攻撃を難読化するためにペニーコードによって生成される。
本稿では,ヒエログリフの画像を生成するために,条件付き生成適応ネットワーク(GAN)であるPhishGANを用いる方法を示す。
論文 参考訳(メタデータ) (2020-06-24T13:59:09Z) - FixMatch: Simplifying Semi-Supervised Learning with Consistency and
Confidence [93.91751021370638]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルの性能を向上させる効果的な手段を提供する。
本稿では、整合正則化と擬似ラベル付けという2つの共通SSL手法の単純な組み合わせのパワーを実証する。
筆者らのアルゴリズムであるFixMatchは、まず、弱拡張未ラベル画像上のモデルの予測を用いて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2020-01-21T18:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。