論文の概要: Semantically Guided Adversarial Testing of Vision Models Using Language Models
- arxiv url: http://arxiv.org/abs/2508.11341v1
- Date: Fri, 15 Aug 2025 09:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.830182
- Title: Semantically Guided Adversarial Testing of Vision Models Using Language Models
- Title(参考訳): 言語モデルを用いた視覚モデルの逐次的逆検定法
- Authors: Katarzyna Filus, Jorge M. Cruz-Duarte,
- Abstract要約: 視覚モデルに対する敵対的な攻撃では、ターゲットラベルの選択は批判的だが、しばしば見過ごされる成功の決定要因である。
本稿では,事前訓練された言語と視覚言語モデルからのクロスモーダルな知識伝達を用いた,敵対的対象選択のためのセマンティクス誘導フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In targeted adversarial attacks on vision models, the selection of the target label is a critical yet often overlooked determinant of attack success. This target label corresponds to the class that the attacker aims to force the model to predict. Now, existing strategies typically rely on randomness, model predictions, or static semantic resources, limiting interpretability, reproducibility, or flexibility. This paper then proposes a semantics-guided framework for adversarial target selection using the cross-modal knowledge transfer from pretrained language and vision-language models. We evaluate several state-of-the-art models (BERT, TinyLLAMA, and CLIP) as similarity sources to select the most and least semantically related labels with respect to the ground truth, forming best- and worst-case adversarial scenarios. Our experiments on three vision models and five attack methods reveal that these models consistently render practical adversarial targets and surpass static lexical databases, such as WordNet, particularly for distant class relationships. We also observe that static testing of target labels offers a preliminary assessment of the effectiveness of similarity sources, \textit{a priori} testing. Our results corroborate the suitability of pretrained models for constructing interpretable, standardized, and scalable adversarial benchmarks across architectures and datasets.
- Abstract(参考訳): 視覚モデルに対する標的敵攻撃では、標的ラベルの選択は批判的だが、しばしば見過ごされる攻撃成功の決定要因である。
このターゲットラベルは、攻撃者がモデルに予測を強制しようとするクラスに対応する。
現在、既存の戦略は一般的にランダム性、モデル予測、静的なセマンティックリソースに依存しており、解釈可能性、再現性、柔軟性を制限している。
そこで本稿では,事前学習された言語と視覚言語モデルからのクロスモーダルな知識伝達を用いた,敵対的対象選択のためのセマンティクス誘導フレームワークを提案する。
我々は,いくつかの最先端モデル (BERT, TinyLLAMA, CLIP) を類似性源として評価し, 基礎的真理に関して最も, 最も意味の少ないラベルを選択する。
3つの視覚モデルと5つの攻撃手法に関する実験により、これらのモデルが実用的敵ターゲットを一貫してレンダリングし、WordNetのような静的語彙データベースを上回り、特にクラス間の関係を遠ざかっていることが明らかとなった。
また,対象ラベルの静的検定により,類似性ソースであるtextit{a priori} テストの有効性の予備的な評価が可能であることも確認した。
我々の結果は、アーキテクチャやデータセットをまたいだ解釈可能で、標準化され、スケーラブルな敵対的ベンチマークを構築するための事前訓練されたモデルの適合性を裏付けるものである。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - I Bet You Did Not Mean That: Testing Semantic Importance via Betting [8.909843275476264]
我々は、条件付き独立性を用いて不透明モデルの予測に対する意味論的概念のグローバル(すなわち人口以上)とローカル(すなわちサンプル)の統計的重要性を定式化する。
我々は、シーケンシャルなカーネル化独立テストという最近の考え方を用いて、概念間の重要度を誘導し、我々のフレームワークの有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2024-05-29T14:51:41Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion
Model [14.834360664780709]
モデルアタック(MIA)は、深層学習モデルの到達不可能なトレーニングセットからプライベートデータを復元することを目的としている。
そこで本研究では,条件拡散モデル(CDM)を応用したMIA手法を開発し,対象ラベル下でのサンプルの回収を行う。
実験結果から,本手法は従来手法よりも高い精度で類似したサンプルをターゲットラベルに生成できることが示唆された。
論文 参考訳(メタデータ) (2023-07-17T12:14:24Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Evaluating Deception Detection Model Robustness To Linguistic Variation [10.131671217810581]
認知ニュース検出の設定における言語的変化に対するモデル堅牢性の解析を提案する。
2つの予測タスクを検討し,3つの最先端組込みを比較して,モデル性能の一貫した傾向を強調する。
キャラクタあるいは混合アンサンブルモデルが最も効果的な防御であり,キャラクタ摂動に基づく攻撃戦術がより成功していることがわかった。
論文 参考訳(メタデータ) (2021-04-23T17:25:38Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。