論文の概要: Closed-Loop Bidirectional Prompting for Adversarial Robustness of Vision Language Models
- arxiv url: http://arxiv.org/abs/2605.25922v1
- Date: Mon, 25 May 2026 15:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.343501
- Title: Closed-Loop Bidirectional Prompting for Adversarial Robustness of Vision Language Models
- Title(参考訳): 視覚言語モデルの逆ロバスト性に対する閉ループ双方向プロンプト
- Authors: Xiao Liu, Jiaxiang Liu, Boci Peng, Boren Hu, Yusong Wang, Xiwen Chen, Prayag Tiwari, Liming Zhang, Mingkun Xu,
- Abstract要約: 視覚言語モデルは、モーダル間のセマンティックアライメントを妨害する敵の摂動に対して非常に脆弱である。
凍結エンコーダ上の動的フィードバックループを経由し, 相互合意回復として頑健な適応を図ったクローズドループ双方向プロンプトを提案する。
セマンティックアンカーは、周期的な更新を制限し、摂動によって引き起こされる特徴の破損を軽減するために安定して導入される。
- 参考スコア(独自算出の注目度): 26.101385153364777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models adapt well to downstream tasks but are highly vulnerable to adversarial perturbations that disrupt cross-modal semantic alignment. Existing defenses are largely unidirectional or structural, failing to exploit bidirectional cross-modal complementarity and instance-wise adaptive protection. To overcome the limitations of unidirectional and static defenses in adversarial settings, we propose Closed-Loop Bidirectional Prompting, casting robust adaptation as cross-modal agreement recovery via a dynamic feedback loop on frozen encoders. A Semantic Anchor is introduced as a stable prior to constrain cyclic updates and mitigate perturbation-induced feature corruption. Through anchor-based bootstrapping, textual semantics denoise visual representations, while the refined visuals enable instance-adaptive prompt updating, yielding a rectified and robust consensus. Extensive evaluations across 11 datasets validate state-of-the-art robustness and strong base-to-new generalization, while maintaining a favorable trade-off between computational cost and accuracy.
- Abstract(参考訳): 視覚言語モデルは下流のタスクによく適応するが、モーダル間のセマンティックアライメントを妨害する敵の摂動に対して非常に脆弱である。
既存の防御は、主に一方向または構造的であり、双方向のモード間の相補性とインスタンス単位の適応的保護を利用できない。
本研究では, 凍結エンコーダ上の動的フィードバックループを介し, 相互合意回復として頑健な適応を図り, 対向的な一方向・静的防御の限界を克服するために, 閉ループ双方向プロンプトを提案する。
セマンティックアンカーは、周期的な更新を制限し、摂動によって引き起こされる特徴の破損を軽減するために安定して導入される。
アンカーベースのブートストラップによって、テキストセマンティクスは視覚表現を識別し、洗練されたビジュアルはインスタンス適応的なプロンプト更新を可能にし、修正され堅牢なコンセンサスをもたらす。
11データセットにわたる広範囲な評価は、計算コストと精度のトレードオフを維持しながら、最先端の堅牢性と強力なベース・ツー・ニューな一般化を検証する。
関連論文リスト
- Visual Enhanced Depth Scaling for Multimodal Latent Reasoning [32.211888127924446]
マルチモーダル潜在推論は、明示的なChain-of-Thoughtデコーディングを暗黙的な特徴伝達に置き換える、有望なパラダイムとして登場した。
視覚的認識を協調的に強化し,より深い文脈推論のために複雑な潜伏を洗練するための視覚再生モジュールとルーティング深度スケーリングを提案する。
我々のフレームワークは、さまざまなベンチマークで最先端のパフォーマンスを実現しつつ、明示的なCoTベースラインよりもかなりの推論スピードアップを実現しています。
論文 参考訳(メタデータ) (2026-04-12T07:14:30Z) - AGFT: Alignment-Guided Fine-Tuning for Zero-Shot Adversarial Robustness of Vision-Language Models [12.774216017720642]
事前学習された視覚言語モデル(VLM)は強力なゼロショット一般化を示すが、敵の摂動に弱いままである。
本稿では,アライメントガイド付ファインチューニング(AGFT)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-31T08:17:27Z) - Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction [67.45032003041399]
本研究では,先進的かつ意味論的に誘導された摂動を通じて対向的伝達性を高めるセマンティック・ダイナミック・コントラシブ・アタック(SADCA)を提案する。
SADCAは、対立、正、負のサンプルを含む対照的な学習メカニズムを確立し、得られた摂動の意味的不整合を強化する。
複数のデータセットとモデルの実験により、SADCAは対向移動性を大幅に改善し、最先端の手法を一貫して超えることを示した。
論文 参考訳(メタデータ) (2026-03-05T05:46:16Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - BiPrompt: Bilateral Prompt Optimization for Visual and Textual Debiasing in Vision-Language Models [7.174865411448373]
テスト時間適応時の両モード間の非因果的特徴依存を緩和する二元的プロンプト最適化フレームワーク(BiPrompt)を提案する。
視覚面では、背景のアクティベーションを抑制し、因果領域と突発領域の間の予測一貫性を強制するために、構造化された注意誘導消去を用いる。
テキスト側では、クラス埋め込みを等方的意味空間に整合させる学習可能な再中心化機構である、バランスの取れたプロンプト正規化を導入している。
論文 参考訳(メタデータ) (2026-01-05T14:22:20Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。
言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。
セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文 参考訳(メタデータ) (2025-10-27T04:02:52Z) - Self-Calibrated Consistency can Fight Back for Adversarial Robustness in Vision-Language Models [31.920092341939593]
自己キャリブレーション・コンシスタンシー(Self-Calibrated Consistency)は、敵の攻撃に対する効果的なテストタイム防衛である。
SCCは精度を維持しながら、CLIPのゼロショットロバスト性を一貫して改善する。
これらの知見は、CLIPから逆向きに堅牢なパラダイムを確立する大きな可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-10-26T18:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。