論文の概要: SIFT-Graph: Benchmarking Multimodal Defense Against Image Adversarial Attacks With Robust Feature Graph
- arxiv url: http://arxiv.org/abs/2511.08810v1
- Date: Thu, 13 Nov 2025 01:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.236497
- Title: SIFT-Graph: Benchmarking Multimodal Defense Against Image Adversarial Attacks With Robust Feature Graph
- Title(参考訳): SIFT-Graph:ロバスト・フィーチャーグラフによる画像敵対攻撃に対するマルチモーダル・ディフェンスのベンチマーク
- Authors: Jingjie He, Weijie Liang, Zihan Shan, Matthew Caesar,
- Abstract要約: 敵攻撃は現代のディープビジョンモデルに根本的な脆弱性を露呈する。
本稿では,従来の視覚モデルの堅牢性を高めるマルチモーダル・ディフェンス・フレームワークであるSIFT-Graphを紹介する。
予備的な結果から,本手法は,勾配型ホワイトボックス攻撃に対する視覚モデルロバスト性を効果的に向上することが示された。
- 参考スコア(独自算出の注目度): 0.6999740786886536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks expose a fundamental vulnerability in modern deep vision models by exploiting their dependence on dense, pixel-level representations that are highly sensitive to imperceptible perturbations. Traditional defense strategies typically operate within this fragile pixel domain, lacking mechanisms to incorporate inherently robust visual features. In this work, we introduce SIFT-Graph, a multimodal defense framework that enhances the robustness of traditional vision models by aggregating structurally meaningful features extracted from raw images using both handcrafted and learned modalities. Specifically, we integrate Scale-Invariant Feature Transform keypoints with a Graph Attention Network to capture scale and rotation invariant local structures that are resilient to perturbations. These robust feature embeddings are then fused with traditional vision model, such as Vision Transformer and Convolutional Neural Network, to form a unified, structure-aware and perturbation defensive model. Preliminary results demonstrate that our method effectively improves the visual model robustness against gradient-based white box adversarial attacks, while incurring only a marginal drop in clean accuracy.
- Abstract(参考訳): 敵対的攻撃は、知覚不能な摂動に非常に敏感な高密度のピクセルレベルの表現への依存を利用して、現代のディープビジョンモデルにおける根本的な脆弱性を露呈する。
従来の防衛戦略は、通常はこの脆弱なピクセル領域内で運用され、本質的に堅牢な視覚的特徴を組み込むメカニズムが欠如している。
本研究では,従来の視覚モデルのロバスト性を高めるマルチモーダル・ディフェンス・フレームワークであるSIFT-Graphを紹介する。
具体的には、スケール不変の特徴変換キーポイントとグラフ注意ネットワークを統合し、摂動に耐性のあるスケールと回転不変の局所構造をキャプチャする。
これらの堅牢な特徴埋め込みは、Vision TransformerやConvolutional Neural Networkといった従来のビジョンモデルと融合し、統一された構造認識および摂動防御モデルを形成する。
以上の結果から,本手法は精度の低下を極端に抑えつつ,勾配に基づくホワイトボックス攻撃に対する視覚モデルロバスト性を効果的に向上することが示された。
関連論文リスト
- Fixed-point graph convolutional networks against adversarial attacks [2.4469484645516832]
敵対的攻撃は、グラフニューラルネットワークの完全性と性能に重大なリスクをもたらす。
本稿では,固定点反復グラフ畳み込みネットワークイテレーション (Fix-GCN) と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-10-29T20:17:37Z) - Foundations and Models in Modern Computer Vision: Key Building Blocks in Landmark Architectures [34.542592986038265]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。
本稿では,残差接続を導入したResNetについて概説する。
画像パッチのシーケンスにトランスフォーマーアーキテクチャを適用し,新たなパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文 参考訳(メタデータ) (2025-07-31T09:08:11Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Harnessing The Power of Attention For Patch-Based Biomedical Image Classification [0.0]
本稿では,従来のCNNの代替として,自己認識機構に基づく新しいアーキテクチャを提案する。
可変画像サイズを高解像度に適応させるLancoz5手法を提案する。
提案手法は、誘導バイアス、重み共有、受容場制限、効率的なデータハンドリングなど、注意に基づく視覚モデルが直面する重要な課題に対処する。
論文 参考訳(メタデータ) (2024-04-01T06:22:28Z) - Manipulating Feature Visualizations with Gradient Slingshots [53.94925202421929]
特徴可視化(FV)は、ディープニューラルネットワーク(DNN)で学んだ概念を解釈するための広く使われている手法である。
本稿では,モデルアーキテクチャを変更したり,性能を著しく劣化させたりすることなくFVの操作を可能にする新しい手法,Gradient Slingshotsを提案する。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z) - Single Image Deraining via Scale-space Invariant Attention Neural
Network [58.5284246878277]
我々は,カメラに対するレインステーキの外観の視覚的変化に対処するスケールの概念に取り組む。
本稿では,画素領域よりもコンパクトでロバストな畳み込み特徴領域のマルチスケール相関を表現することを提案する。
このようにして、機能マップの最も活発な存在を、有能な特徴として要約する。
論文 参考訳(メタデータ) (2020-06-09T04:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。