論文の概要: Dithering Defense: Adversarial Robustness of Vision Foundation Models via Multi-Level Floyd-Steinberg Dithering
- arxiv url: http://arxiv.org/abs/2605.23065v1
- Date: Thu, 21 May 2026 21:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.114728
- Title: Dithering Defense: Adversarial Robustness of Vision Foundation Models via Multi-Level Floyd-Steinberg Dithering
- Title(参考訳): ディザリングディフェンス:マルチレベルフロイド・シュタインバーグディザリングによるビジョンファウンデーションモデルの逆ロバスト性
- Authors: Yury Belousov, Brian Pulfer, Vitaliy Kinakh, Slava Voloshynovskiy,
- Abstract要約: マルチレベルFloyd-Steinberg誤差拡散ディザリングを,軽量でモデルに依存しない入力変換として検討する。
分類,セグメンテーション,深度推定,検索,キャプション,視覚的質問応答),2つのモデルファミリー(DINOv2,PaliGemma),3つの強みに対する攻撃について検討した。
以上の結果から,Floyd-Steinbergディザリングを中間量子化レベル,特に後処理のぼかしと組み合わせた場合,試験対象のベースラインを全て超えたり,一致させたりすることがわかった。
- 参考スコア(独自算出の注目度): 10.735933532562848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision foundation models are widely used as frozen backbones across many downstream tasks, making them a single point of failure under adversarial attack. We study multi-level Floyd-Steinberg error-diffusion dithering as a lightweight, model-agnostic input transformation that disrupts adversarial perturbations while preserving semantic content. Unlike prior work, which was limited to binary dithering, grayscale CIFAR-10, and a single small model trained from scratch, we evaluate across six tasks (classification, segmentation, depth estimation, retrieval, captioning, visual question answering), two model families (DINOv2, PaliGemma), and three attacks of increasing strength (PGD, MI-FGSM, SIA), as well as an adaptive attacker using a straight-through estimator. Our results show that Floyd-Steinberg dithering at intermediate quantization levels, especially when combined with post-processing blur, exceeds or matches all tested baselines, including diffusion-based denoising, with substantially less degradation on clean inputs.
- Abstract(参考訳): ビジョンファウンデーションモデルは、多くの下流タスクの凍結バックボーンとして広く使われており、敵攻撃下では単一障害点となっている。
マルチレベルFloyd-Steinberg誤差拡散ディザリングを, セマンティックコンテンツを保存しながら, 対向摂動を妨害する, 軽量でモデルに依存しない入力変換として検討する。
2次ディザリング、グレースケールCIFAR-10、スクラッチから訓練された1つの小さなモデルに制限された以前の作業とは異なり、我々は6つのタスク(分類、セグメンテーション、深さ推定、検索、キャプション、視覚的質問応答)、2つのモデルファミリー(DINOv2、PaliGemma)、3つの強化強度攻撃(PGD、MI-FGSM、SIA)、およびストレートスルー推定器を用いた適応攻撃(アタック)について評価した。
以上の結果から,Floyd-Steinbergディザリングを中間量子化レベル,特に後処理のぼかしと組み合わせた場合,拡散型デノナイジングを含む全ての試験基準線を超過あるいは一致させ,クリーン入力の劣化を著しく低減した。
関連論文リスト
- When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Human-Centric Anomaly Detection in Surveillance Videos Using YOLO-World and Spatio-Temporal Deep Learning [0.1019561860229868]
監視ビデオにおける異常検出は、異常事象の多様性、クラス不均衡、シーン依存の視覚的乱れなどにより、依然として困難な課題である。
マルチクラス異常分類のための時間的モデリングと人間の重み付け前処理を統合した頑健なディープラーニングフレームワークを提案する。
本手法は,3つの独立した試験において平均テスト精度が92.41%であり,クラスごとのF1スコアは0.85以上である。
論文 参考訳(メタデータ) (2025-10-24T22:38:17Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Polysemous Language Gaussian Splatting via Matching-based Mask Lifting [16.769952481766445]
MUSplatは、機能の最適化を完全に放棄した、トレーニング不要のフレームワークである。
パイプラインは多粒性2Dマスクを3次元に生成し,各ガウス点に対する前景確率を推定し,初期対象群を形成する。
次に、これらの初期群のあいまいな境界を意味エントロピーと幾何学的不透明度を用いて最適化する。
論文 参考訳(メタデータ) (2025-09-26T11:38:05Z) - ForensicsSAM: Toward Robust and Unified Image Forgery Detection and Localization Resisting to Adversarial Attack [56.0056378072843]
高い転送性を持つ逆画像は上流モデルでのみ作成可能であることを示す。
本稿では,IFDLフレームワークを組み込んだForensicsSAMを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:03:44Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Robust Duality Learning for Unsupervised Visible-Infrared Person Re-Identification [24.24793934981947]
擬似ラベルノイズ(PLN)を考慮した新しい学習パラダイムを提案する。
PLNはノイズオーバーフィット、エラー蓄積、ノイズの多いクラスタ対応の3つの主要な課題によって特徴づけられる。
UVI-ReIDのためのロバスト・デュナリティ学習フレームワーク(RoDE)を提案する。
論文 参考訳(メタデータ) (2025-05-05T10:36:52Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 [43.32593407341789]
オープンソースの大規模ビジョン言語モデルで有望なパフォーマンスにもかかわらず、トランスファーベースのターゲットアタックは、クローズドソースの商用LVLMに対して失敗することが多い。
本稿では,局所領域内の意味的詳細を明示的に符号化することで,意味的明瞭度を高めることを提案する。
提案手法は, GPT-4.5, 4o, o1において90%以上の成功率を達成し, 従来の攻撃方法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-13T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。