論文の概要: MBA: Multimodal Bidirectional Attack for Referring Expression Segmentation Models
- arxiv url: http://arxiv.org/abs/2506.16157v1
- Date: Thu, 19 Jun 2025 09:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.012011
- Title: MBA: Multimodal Bidirectional Attack for Referring Expression Segmentation Models
- Title(参考訳): MBA:表現セグメンテーションモデル参照のためのマルチモーダル双方向攻撃
- Authors: Xingbai Chen, Tingchao Fu, Renyang Liu, Wei Zhou, Chao Yi,
- Abstract要約: Referring Expression (RES)は、自然言語記述に基づく画像の正確なオブジェクトセグメンテーションを可能にする。
その印象的な性能にもかかわらず、RESモデルの敵の例に対する堅牢性はほとんど解明されていない。
本稿では,RESモデルに適した新しい攻撃戦略である textbfMultimodal Bidirectional Attack を提案する。
- 参考スコア(独自算出の注目度): 2.5931446496646204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Segmentation (RES) enables precise object segmentation in images based on natural language descriptions, offering high flexibility and broad applicability in real-world vision tasks. Despite its impressive performance, the robustness of RES models against adversarial examples remains largely unexplored. While prior adversarial attack methods have explored adversarial robustness on conventional segmentation models, they perform poorly when directly applied to RES, failing to expose vulnerabilities in its multimodal structure. Moreover, in practical open-world scenarios, users typically issue multiple, diverse referring expressions to interact with the same image, highlighting the need for adversarial examples that generalize across varied textual inputs. To address these multimodal challenges, we propose a novel adversarial attack strategy termed \textbf{Multimodal Bidirectional Attack}, tailored for RES models. Our method introduces learnable proxy textual embedding perturbation and jointly performs visual-aligned optimization on the image modality and textual-adversarial optimization on the textual modality during attack generation. This dual optimization framework encourages adversarial images to actively adapt to more challenging text embedding during optimization, thereby enhancing their cross-text transferability, which refers to the ability of adversarial examples to remain effective under a variety of unseen or semantically diverse textual inputs. Extensive experiments conducted on multiple RES models and benchmark datasets demonstrate the superior effectiveness of our method compared to existing methods.
- Abstract(参考訳): Referring Expression Segmentation (RES)は、自然言語記述に基づく画像の正確なオブジェクトセグメンテーションを可能にし、現実世界の視覚タスクに高い柔軟性と幅広い適用性を提供する。
その印象的な性能にもかかわらず、RESモデルの敵の例に対する堅牢性はほとんど解明されていない。
従来のセグメンテーションモデルでは, 従来の敵攻撃手法では, RESに直接適用しても, 脆弱性を露呈せず, 性能が劣っている。
さらに、実際のオープンワールドシナリオでは、ユーザーは通常、同じ画像と対話するために複数の多様な参照表現を発行し、様々なテキスト入力を一般化する敵例の必要性を強調している。
このようなマルチモーダルな課題に対処するために, RES モデルに適した新規な攻撃戦略である \textbf{Multimodal Bidirectional Attack} を提案する。
提案手法は,学習可能なテキスト埋め込み摂動を導入し,画像のモダリティと攻撃発生時のテキストのモダリティを視覚的に協調的に最適化する。
このデュアル・オプティマイゼーション・フレームワークは、敵画像が最適化中により困難なテキスト埋め込みに積極的に適応することを奨励し、それによってそれらのクロステキスト・トランスファービリティを向上させる。
複数のRESモデルとベンチマークデータセットで実施した大規模な実験により,既存手法と比較して,本手法の有効性が示された。
関連論文リスト
- Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models [32.23201683108716]
本稿では,攻撃に画像パッチを専ら使用し,オリジナルテキストの完全性を維持する新しい戦略を提案する。
本手法は,拡散モデルからの事前知識を活用し,摂動の真性や自然性を高める。
画像・テキスト・シナリオのホワイトボックス・セッティングで実施した総合実験により,提案手法は既存の手法を著しく上回り,100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-07T10:06:01Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory [8.591762884862504]
視覚言語事前学習モデルは多モーダル逆例(AE)の影響を受けやすい
我々は,AEsの多様性を拡大するために,対向軌道の交差領域に沿った多様化を利用することを提案する。
潜在的なオーバーフィッティングを緩和するため、最適化経路に沿った最後の交差点領域から逸脱する逆テキストを指示する。
論文 参考訳(メタデータ) (2024-03-19T05:10:10Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。