論文の概要: Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2509.16163v1
- Date: Fri, 19 Sep 2025 17:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.25279
- Title: Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks
- Title(参考訳): テンソル分解によるロバスト・ビジョン・ランゲージモデル:敵対的攻撃に対する防御
- Authors: Het Patel, Muzammil Allie, Qian Zhang, Jia Chen, Evangelos E. Papalexakis,
- Abstract要約: 視覚言語モデル(VLM)はマルチモーダルな理解では優れているが、敵の攻撃に弱い。
トレーニング済みのVLMに適したテンソル分解を用いた軽量な防御機構を導入し,再トレーニングは不要である。
- 参考スコア(独自算出の注目度): 7.045605010788816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) excel in multimodal understanding but are prone to adversarial attacks. Existing defenses often demand costly retraining or significant architecture changes. We introduce a lightweight defense using tensor decomposition suitable for any pre-trained VLM, requiring no retraining. By decomposing and reconstructing vision encoder representations, it filters adversarial noise while preserving meaning. Experiments with CLIP on COCO and Flickr30K show improved robustness. On Flickr30K, it restores 12.3\% performance lost to attacks, raising Recall@1 accuracy from 7.5\% to 19.8\%. On COCO, it recovers 8.1\% performance, improving accuracy from 3.8\% to 11.9\%. Analysis shows Tensor Train decomposition with low rank (8-32) and low residual strength ($\alpha=0.1-0.2$) is optimal. This method is a practical, plug-and-play solution with minimal overhead for existing VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダルな理解では優れているが、敵の攻撃に弱い。
既存の防衛は、しばしばコストのかかる再訓練や重要なアーキテクチャの変更を要求する。
トレーニング済みのVLMに適したテンソル分解を用いた軽量な防御機構を導入し,再トレーニングは不要である。
視覚エンコーダ表現の分解と再構成により、意味を保ちながら敵の雑音をフィルタリングする。
COCOとFlickr30KでのCLIPの実験では、堅牢性が向上した。
Flickr30Kでは、12.3\%のパフォーマンスが攻撃によって失われ、Recall@1の精度が7.5\%から19.8\%に向上した。
COCOでは8.1\%の性能を回復し、精度は3.8\%から11.9\%に向上する。
低位(8-32)と低残留強度(\alpha=0.1-0.2$)のテンソルトレイン分解が最適であることを示す。
この方法は,既存のVLMのオーバーヘッドを最小限に抑えた,実用的なプラグアンドプレイソリューションである。
関連論文リスト
- Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness [30.934760041900386]
本稿では,対角的視覚摂動に対する視覚言語モデルの堅牢性について検討する。
我々は、Webスケールデータを用いて、スクラッチから大規模な対角視言語事前学習を行う。
次に、対角的視覚的指導のチューニングを取り入れて防御を強化する。
論文 参考訳(メタデータ) (2025-01-16T10:20:48Z) - CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning [53.766434746801366]
バックドアトリガの特徴的接続を遮断するための細粒な textbfText textbfAlignment textbfCleaner (TA-Cleaner) を提案する。
TA-Cleanerは、ファインタニングベースの防御技術の中で最先端の防御性を達成している。
論文 参考訳(メタデータ) (2024-09-26T07:35:23Z) - MeanSparse: Post-Training Robustness Enhancement Through Mean-Centered Feature Sparsification [32.70084821901212]
MeanSparseは、敵の例に対する畳み込みと注意に基づくニューラルネットワークの堅牢性を改善する方法である。
実験の結果,MeanSparseは75.28%の新しいロバストネス記録を達成した。
論文 参考訳(メタデータ) (2024-06-09T22:14:55Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。