論文の概要: Assessing Representation Stability for Transformer Models
- arxiv url: http://arxiv.org/abs/2508.11667v1
- Date: Wed, 06 Aug 2025 21:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.490545
- Title: Assessing Representation Stability for Transformer Models
- Title(参考訳): 変圧器モデルにおける表現安定性の評価
- Authors: Bryan E. Tuck, Rakesh M. Verma,
- Abstract要約: 代用テキスト攻撃はトランスフォーマーモデルに対する永続的な脅威である。
本稿では,モデル・アバーサ検出フレームワークであるRepresentation Stability (RS)を紹介する。
RSは、重要な単語がマスクされたときに、埋め込み表現がどのように変化するかを測定する。
- 参考スコア(独自算出の注目度): 2.41710192205034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial text attacks remain a persistent threat to transformer models, yet existing defenses are typically attack-specific or require costly model retraining. We introduce Representation Stability (RS), a model-agnostic detection framework that identifies adversarial examples by measuring how embedding representations change when important words are masked. RS first ranks words using importance heuristics, then measures embedding sensitivity to masking top-k critical words, and processes the resulting patterns with a BiLSTM detector. Experiments show that adversarially perturbed words exhibit disproportionately high masking sensitivity compared to naturally important words. Across three datasets, three attack types, and two victim models, RS achieves over 88% detection accuracy and demonstrates competitive performance compared to existing state-of-the-art methods, often at lower computational cost. Using Normalized Discounted Cumulative Gain (NDCG) to measure perturbation identification quality, we reveal that gradient-based ranking outperforms attention and random selection approaches, with identification quality correlating with detection performance for word-level attacks. RS also generalizes well to unseen datasets, attacks, and models without retraining, providing a practical solution for adversarial text detection.
- Abstract(参考訳): 敵のテキスト攻撃はトランスフォーマーモデルに対する永続的な脅威であり続けているが、既存の防御は攻撃固有のものや、コストのかかるモデル再訓練を必要とするものが多い。
本稿では,重要な単語がマスキングされた場合の埋め込み表現がどのように変化するかを測定することで,敵の例を識別するモデルに依存しない検出フレームワークであるRepresentation Stability(RS)を紹介する。
RSはまず重要ヒューリスティックスを用いて単語をランク付けし、次いでトップkクリティカルな単語を隠蔽するための埋め込み感度を測定し、その結果パターンをBiLSTM検出器で処理する。
実験の結果, 逆順に摂動した単語は, 自然に重要な単語に比べて, マスキング感度が極めて高いことがわかった。
3つのデータセット、3つの攻撃タイプ、2つの犠牲者モデルにおいて、RSは88%以上の検出精度を達成し、しばしば計算コストの低い既存の最先端手法と比較して競合性能を示す。
正規化された非カウント累積ゲイン (NDCG) を用いて摂動同定の品質を測定し, 単語レベルの攻撃に対する検出性能に関連する識別品質を指標として, 勾配に基づくランク付けが注目度やランダム選択のアプローチより優れていることを明らかにする。
RSはまた、再トレーニングせずに、目に見えないデータセット、アタック、モデルにうまく一般化し、敵のテキスト検出に実用的なソリューションを提供する。
関連論文リスト
- Crafting Imperceptible On-Manifold Adversarial Attacks for Tabular Data [41.69043684367127]
表形式のデータに対する敵対攻撃は、画像やテキストドメインとは異なる根本的な課題を示す。
従来の勾配に基づく手法は$ell_p$-norm制約を優先し、許容できない逆の例を生成する。
本研究では,混合入力変分オートエンコーダ(VAE)を用いた遅延空間摂動フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-15T05:34:44Z) - Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks [50.53590930588431]
敵対的な例は 自然言語処理システムに深刻な脅威をもたらします
近年の研究では、対角的テキストは通常のテキストの多様体から逸脱していることが示唆されているが、マスク付き言語モデルは正規データの多様体を近似することができる。
まず、マスク付き言語モデリング(MLM)の目的のマスクアンマスク操作を活用するMLMD(Masked Language Model-based Detection)を導入する。
論文 参考訳(メタデータ) (2025-04-08T14:10:57Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Invariance-powered Trustworthy Defense via Remove Then Restore [7.785824663793149]
ディープニューラルネットワーク(DNN)の展開にアドリアックが挑戦
主な発見は、敵のサンプルにおける健全な攻撃が攻撃過程を支配することである。
標的治療機構に追従した画像手術とセマンティック再生モデルを開発した。
論文 参考訳(メタデータ) (2024-02-01T03:34:48Z) - ODDR: Outlier Detection & Dimension Reduction Based Defense Against Adversarial Patches [4.4100683691177816]
敵対的攻撃は、機械学習モデルの信頼性の高いデプロイに重大な課題をもたらす。
パッチベースの敵攻撃に対処するための総合的な防御戦略である外乱検出・次元削減(ODDR)を提案する。
提案手法は,逆パッチに対応する入力特徴を外れ値として同定できるという観測に基づいている。
論文 参考訳(メタデータ) (2023-11-20T11:08:06Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。