論文の概要: BitAbuse: A Dataset of Visually Perturbed Texts for Defending Phishing Attacks
- arxiv url: http://arxiv.org/abs/2502.05225v1
- Date: Thu, 06 Feb 2025 05:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:18.573892
- Title: BitAbuse: A Dataset of Visually Perturbed Texts for Defending Phishing Attacks
- Title(参考訳): BitAbuse: フィッシング攻撃に備えた視覚障害者向けテキストのデータセット
- Authors: Hanyong Lee, Chaelyn Lee, Yongjae Lee, Jaesung Lee,
- Abstract要約: フィッシングはしばしば、セキュリティシステムをバイパスするために視覚的に混乱したテキストを通じて犠牲者を狙う。
本稿では,視覚的摂動を付加した実世界のフィッシング事例を含むBitAbuseデータセットを提案する。
- 参考スコア(独自算出の注目度): 27.152775598126457
- License:
- Abstract: Phishing often targets victims through visually perturbed texts to bypass security systems. The noise contained in these texts functions as an adversarial attack, designed to deceive language models and hinder their ability to accurately interpret the content. However, since it is difficult to obtain sufficient phishing cases, previous studies have used synthetic datasets that do not contain real-world cases. In this study, we propose the BitAbuse dataset, which includes real-world phishing cases, to address the limitations of previous research. Our dataset comprises a total of 325,580 visually perturbed texts. The dataset inputs are drawn from the raw corpus, consisting of visually perturbed sentences and sentences generated through an artificial perturbation process. Each input sentence is labeled with its corresponding ground truth, representing the restored, non-perturbed version. Language models trained on our proposed dataset demonstrated significantly better performance compared to previous methods, achieving an accuracy of approximately 96%. Our analysis revealed a significant gap between real-world and synthetic examples, underscoring the value of our dataset for building reliable pre-trained models for restoration tasks. We release the BitAbuse dataset, which includes real-world phishing cases annotated with visual perturbations, to support future research in adversarial attack defense.
- Abstract(参考訳): フィッシングはしばしば、セキュリティシステムをバイパスするために視覚的に混乱したテキストを通じて犠牲者を狙う。
これらのテキストに含まれるノイズは、言語モデルを騙し、コンテンツを正確に解釈する能力を妨げるように設計された敵攻撃として機能する。
しかし、十分なフィッシングケースを得ることが難しいため、従来の研究では、実世界のケースを含まない合成データセットを使用してきた。
本研究では,従来の研究の限界に対処するため,実世界のフィッシング事例を含むBitAbuseデータセットを提案する。
私たちのデータセットは、合計325,580の視覚的摂動テキストで構成されています。
データセット入力は、人工摂動プロセスを通じて生成された視覚的摂動文と文からなる生のコーパスから引き出される。
各入力文は対応する基底真理でラベル付けされ、復元された非摂動バージョンを表す。
提案したデータセットで学習した言語モデルは,従来の手法に比べて有意に優れた性能を示し,約96%の精度を実現した。
我々の分析では、実際の実例と合成例の間に大きなギャップが見られ、復元作業のための信頼性の高い事前学習モデルを構築するためのデータセットの価値が強調された。
我々はBitAbuseデータセットをリリースした。このデータセットには視覚的摂動を付加した現実世界のフィッシングケースが含まれており、敵の攻撃防御における将来の研究を支援する。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - From Text to Treatment Effects: A Meta-Learning Approach to Handling Text-Based Confounding [7.5348062792]
本稿では,共起変数をテキストで表現する場合のメタラーナーの性能について検討する。
共同創設者の事前学習したテキスト表現を用いた学習者は,CATE推定精度の向上を図っている。
テキスト埋め込みの絡み合った性質のため、これらのモデルは、完全な共同創設者の知識を持つメタ学習者のパフォーマンスと完全には一致しない。
論文 参考訳(メタデータ) (2024-09-23T19:46:19Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Deepfake Text Detection: Limitations and Opportunities [4.283184763765838]
トランスフォーマーベースのツールを用いた4つのオンラインサービスからディープフェイクテキストを収集し,野生のコンテンツに対する防衛の一般化能力を評価する。
我々は、いくつかの低コストの敵攻撃を開発し、適応攻撃に対する既存の防御の堅牢性について検討する。
本評価は,テキスト内容のセマンティック情報へのタップが,ディープフェイクテキスト検出方式の堅牢性と一般化性能を向上させるための有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2022-10-17T20:40:14Z) - Text Revealer: Private Text Reconstruction via Model Inversion Attacks
against Transformers [22.491785618530397]
emphText Revealerを定式化する -- トランスフォーマーを用いたテキスト分類に対するテキスト再構成のための最初のモデル逆転攻撃。
我々の攻撃は、ターゲットモデルへのアクセスにより、トレーニングデータに含まれるプライベートテキストを忠実に再構築する。
実験により,我々の攻撃はテキスト長の異なるデータセットに対して有効であり,正確さでプライベートテキストを再構築できることが実証された。
論文 参考訳(メタデータ) (2022-09-21T17:05:12Z) - UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection [16.925048424113463]
我々は、textbfUNsupervised textbfIntermediate textbfTraining textbfStage (UNITS)を導入したシーンテキスト検出のための新しいトレーニングパラダイムを提案する。
UNITSは実世界のデータへのバッファパスを構築し、事前学習段階と微調整段階の間のギャップを軽減することができる。
教師なしの方法で現実世界のデータから情報を知覚するために、さらに3つのトレーニング戦略が検討されている。
論文 参考訳(メタデータ) (2022-05-10T05:34:58Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。
そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-19T11:05:13Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。