Fugu-MT 論文翻訳(概要): Weaponizing Unicodes with Deep Learning -- Identifying Homoglyphs with Weakly Labeled Data

論文の概要: Weaponizing Unicodes with Deep Learning -- Identifying Homoglyphs with Weakly Labeled Data

arxiv url: http://arxiv.org/abs/2010.04382v4
Date: Tue, 22 Dec 2020 18:11:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-09 05:15:31.427359
Title: Weaponizing Unicodes with Deep Learning -- Identifying Homoglyphs with Weakly Labeled Data
Title（参考訳）: 深層学習によるUnicodeのWeaponizing --弱ラベル付きデータによるホモグリフの同定
Authors: Perry Deng, Cooper Linsky, Matthew Wright
Abstract要約: 視覚的に類似した文字(ホモグリフ)は、社会工学的な攻撃やスパムや盗作検知の回避に使用できる。本研究では, 学習, 移動学習, 拡張モデルについて検討し, ホモグリフの可能性を同定する。また、我々のモデルを用いて8000以上の未知のホモスグリフを予測し、多くのものが真の正であることを示す良い早期の兆候を見出す。
参考スコア（独自算出の注目度）: 11.434810426156877
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visually similar characters, or homoglyphs, can be used to perform social engineering attacks or to evade spam and plagiarism detectors. It is thus important to understand the capabilities of an attacker to identify homoglyphs -- particularly ones that have not been previously spotted -- and leverage them in attacks. We investigate a deep-learning model using embedding learning, transfer learning, and augmentation to determine the visual similarity of characters and thereby identify potential homoglyphs. Our approach uniquely takes advantage of weak labels that arise from the fact that most characters are not homoglyphs. Our model drastically outperforms the Normalized Compression Distance approach on pairwise homoglyph identification, for which we achieve an average precision of 0.97. We also present the first attempt at clustering homoglyphs into sets of equivalence classes, which is more efficient than pairwise information for security practitioners to quickly lookup homoglyphs or to normalize confusable string encodings. To measure clustering performance, we propose a metric (mBIOU) building on the classic Intersection-Over-Union (IOU) metric. Our clustering method achieves 0.592 mBIOU, compared to 0.430 for the naive baseline. We also use our model to predict over 8,000 previously unknown homoglyphs, and find good early indications that many of these may be true positives. Source code and list of predicted homoglyphs are uploaded to Github: https://github.com/PerryXDeng/weaponizing_unicode
Abstract（参考訳）: 視覚的に類似した文字(ホモグリフ)は、社会工学的な攻撃やスパムや盗作検知の回避に使用できる。したがって、攻撃者がホモグリフ(特にこれまで発見されていないもの)を識別し、攻撃に活用する能力を理解することが重要である。埋め込み学習,移動学習,拡張を用いた深層学習モデルを用いて,文字の視覚的類似性を判定し,将来的なホモグリフを同定する。我々のアプローチは、ほとんどの文字がホモグリフではないという事実から生じる弱いラベルを独特に活用する。本モデルでは,一対のホモグリフ同定における正規化圧縮距離法を劇的に上回り,平均精度0。また,ホモグリフを同値類の集合にクラスタリングする最初の試みを示す。これは,セキュリティ実践者がホモグリフを素早く検索したり,使用可能な文字列エンコーディングを正規化するために,ペアワイズ情報よりも効率的である。クラスタリング性能を測定するために,従来のIOU(Intersection-Over-Union)尺度に基づくメートル法(mBIOU)を提案する。クラスタリング法は0.592 mBIOU を達成するが,本法では0.430 である。また、我々のモデルを用いて8000以上の未知のホモグリフを予測し、それらの多くが真の正であることを示す良い早期の兆候を見つける。ソースコードと予測ホモグリフのリストはGithubにアップロードされる: https://github.com/PerryXDeng/weaponizing_unicode

関連論文リスト

Training Language Models with homotokens Leads to Delayed Overfitting [2.531076482407163]
サブワードトークン化は、多くの異なるトークンシーケンスが同じ表面形式にデコードされ、意味を保存する言語モデルにおける計算層を導入している。我々は、データ拡張の厳密な意味保存形式として、ホモトケンを定式化する。データ制約付き事前トレーニングでは、ホモトケン強化は繰り返しデータ露光下でのオーバーフィッティングを継続的に遅らせる。多言語微調整では、ホモトケンの有効性はトークン化器の品質に依存する。
論文参考訳（メタデータ） (2026-01-06T09:57:00Z)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Web Artifact Attacks Disrupt Vision Language Models [61.59021920232986]
視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作クラスである、アーティファクトベースのアタックを紹介します。
論文参考訳（メタデータ） (2025-03-17T18:59:29Z)
Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文参考訳（メタデータ） (2024-12-24T12:51:05Z)
Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。 SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文参考訳（メタデータ） (2024-03-26T09:25:57Z)
Generation is better than Modification: Combating High Class Homophily Variance in Graph Anomaly Detection [51.11833609431406]
異なるクラス間のホモフィリー分布の差は、ホモフィリックグラフやヘテロフィリックグラフよりも著しく大きい。我々は、この現象を定量的に記述した、クラスホモフィリーバリアンスと呼ばれる新しい計量を導入する。その影響を軽減するために,ホモフィリーエッジ生成グラフニューラルネットワーク(HedGe)と呼ばれる新しいGNNモデルを提案する。
論文参考訳（メタデータ） (2024-03-15T14:26:53Z)
Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文参考訳（メタデータ） (2023-11-30T13:22:15Z)
Pairwise Similarity Learning is SimPLE [104.14303849615496]
我々は、汎用的で重要な学習問題、ペアワイズ類似性学習(PSL)に焦点を当てる。 PSLは、オープンセットの顔認識、話者検証、画像検索、人物の再識別など、幅広い重要な応用を仮定する。我々は、機能/プロキシの正規化も角マージンも必要としない、SimPLEと呼ばれる驚くほど単純なプロキシフリー手法を提案する。
論文参考訳（メタデータ） (2023-10-13T23:56:47Z)
GlyphNet: Homoglyph domains dataset and detection using attention-based Convolutional Neural Networks [1.0312968200748118]
ホモグリフ攻撃は、合法的なドメインと区別しにくい非合法なドメインを生成する。既存のアプローチでは、一次言語に基づくタスクに適用される単純な文字列ベースの比較手法が使用されている。我々のモデルでは、データセット上の0.93AUCでホモグリフ攻撃を検出する際に、最先端の精度に到達できることが示される。
論文参考訳（メタデータ） (2023-06-17T17:16:53Z)
Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文参考訳（メタデータ） (2023-05-30T01:38:54Z)
Leveraging Dependency Grammar for Fine-Grained Offensive Language Detection using Graph Convolutional Networks [0.5457150493905063]
我々はTwitterにおける攻撃的言語検出の問題に対処する。文の係り受け解析木に構文的特徴を統合するSyLSTMという新しい手法を提案する。その結果,提案手法は,パラメータの桁数を桁違いに減らして,最先端のBERTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-05-26T05:27:50Z)
New Benchmarks for Learning on Non-Homophilous Graphs [20.082182515715182]
ホモフィリー原理を満たさないノードラベル関係を持つ改良されたグラフデータセットを多数提示する。我々はまた、異なる体制における既存の措置よりも適しているホモフィリーの存在または不在の新しい尺度を紹介します。
論文参考訳（メタデータ） (2021-04-03T13:45:06Z)
PhishGAN: Data Augmentation and Identification of Homoglpyh Attacks [0.0]
ホモグリフ攻撃(Homoglyph attack)は、ハッカーがフィッシングを行うのに使われる一般的なテクニックである。実際のフィッシングと視覚的に類似したドメイン名やリンクは、攻撃を難読化するためにペニーコードによって生成される。本稿では,ヒエログリフの画像を生成するために,条件付き生成適応ネットワーク(GAN)であるPhishGANを用いる方法を示す。
論文参考訳（メタデータ） (2020-06-24T13:59:09Z)
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence [93.91751021370638]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルの性能を向上させる効果的な手段を提供する。本稿では、整合正則化と擬似ラベル付けという2つの共通SSL手法の単純な組み合わせのパワーを実証する。筆者らのアルゴリズムであるFixMatchは、まず、弱拡張未ラベル画像上のモデルの予測を用いて擬似ラベルを生成する。
論文参考訳（メタデータ） (2020-01-21T18:32:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。