論文の概要: A Semantic Decoupling-Based Two-Stage Rainy-Day Attack for Revealing Weather Robustness Deficiencies in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.13238v1
- Date: Mon, 19 Jan 2026 17:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.987059
- Title: A Semantic Decoupling-Based Two-Stage Rainy-Day Attack for Revealing Weather Robustness Deficiencies in Vision-Language Models
- Title(参考訳): セマンティックデカップリングに基づく2段階降雨デイアタックによる視覚・言語モデルにおける気象ロバスト性障害の解明
- Authors: Chengyin Hu, Xiang Chen, Zhe Jia, Weiwen Shi, Fengyu Zhang, Jiujiang Guo, Yiwei Wei,
- Abstract要約: 現実的な天気を利用して視覚言語モデル(VLM)を攻撃するための最初の敵フレームワークを紹介する。
雨による意思決定の変化を分析するために,セマンティックデカップリングに基づく2段階のパラメータ化摂動モデルを用いた。
我々の枠組みは物理的基盤と解釈可能な摂動を生成する。
- 参考スコア(独自算出の注目度): 9.92574905741706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are trained on image-text pairs collected under canonical visual conditions and achieve strong performance on multimodal tasks. However, their robustness to real-world weather conditions, and the stability of cross-modal semantic alignment under such structured perturbations, remain insufficiently studied. In this paper, we focus on rainy scenarios and introduce the first adversarial framework that exploits realistic weather to attack VLMs, using a two-stage, parameterized perturbation model based on semantic decoupling to analyze rain-induced shifts in decision-making. In Stage 1, we model the global effects of rainfall by applying a low-dimensional global modulation to condition the embedding space and gradually weaken the original semantic decision boundaries. In Stage 2, we introduce structured rain variations by explicitly modeling multi-scale raindrop appearance and rainfall-induced illumination changes, and optimize the resulting non-differentiable weather space to induce stable semantic shifts. Operating in a non-pixel parameter space, our framework generates perturbations that are both physically grounded and interpretable. Experiments across multiple tasks show that even physically plausible, highly constrained weather perturbations can induce substantial semantic misalignment in mainstream VLMs, posing potential safety and reliability risks in real-world deployment. Ablations further confirm that illumination modeling and multi-scale raindrop structures are key drivers of these semantic shifts.
- Abstract(参考訳): 視覚言語モデル(VLM)は、標準的な視覚条件下で収集された画像テキストペアに基づいて訓練され、マルチモーダルタスクにおいて高い性能を達成する。
しかし、実際の気象条件に対するロバスト性や、そのような構造的摂動下でのクロスモーダルなセマンティックアライメントの安定性は、まだ十分に研究されていない。
本稿では,雨季のシナリオに焦点をあて,現実的な気象を利用してVLMを攻撃し,意味的デカップリングに基づく2段階のパラメータ化摂動モデルを用いて,雨による意思決定の変化を解析する,最初の敵対的枠組みを提案する。
ステージ1では,低次元のグローバル変調を埋め込み空間の条件に応用し,降雨のグローバルな影響をモデル化し,元の意味決定境界を徐々に弱める。
ステージ2では,複数スケールの降雨の出現と降雨による照明変化を明示的にモデル化し,結果として生じる非分化性気象空間を最適化し,安定なセマンティックシフトを誘発することにより,雨の変動をモデル化する。
非ピクセルパラメータ空間で操作することで、物理的に基底と解釈可能な摂動を生成する。
複数のタスクにまたがる実験では、物理的に安定し、高度に制約された気象摂動でさえ、主流のVLMにおいて意味的なミスアライメントを生じさせ、現実世界の展開において潜在的な安全性と信頼性のリスクを生じさせることが示されている。
アブレーションにより、照明モデルとマルチスケール雨滴構造がこれらのセマンティックシフトの鍵となることが確認される。
関連論文リスト
- RoSe: Robust Self-supervised Stereo Matching under Adverse Weather Conditions [58.37558408672509]
本稿では,ロバストな自己監督型環境対応学習と悪天候蒸留という2つの重要なステップからなる,堅牢な自己監督型訓練パラダイムを提案する。
提案手法の有効性と汎用性を実証し,既存の最先端の自己管理手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-23T15:41:40Z) - Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining [73.5575992346396]
本稿では,ビデオシーケンスにおけるストリーク除去を改善するために,2分岐時間状態空間モデルを提案する。
マルチフレーム機能融合を改善するために,画素ワイド機能改善のための統計的フィルタを適応的に近似する動的フィルタ積層法を提案する。
降雨環境における他の視覚に基づくタスクを支援する上でのデラミニングモデルの能力をさらに探求するため,我々は新しい実世界ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-05-22T15:50:00Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Residual Corrective Diffusion Modeling for Km-scale Atmospheric Downscaling [58.456404022536425]
気象・気候からの物理的危険予知技術の現状には、粗い解像度のグローバルな入力によって駆動される高価なkmスケールの数値シミュレーションが必要である。
ここでは、コスト効率のよい機械学習代替手段として、このようなグローバルな入力をkmスケールにダウンスケールするために、生成拡散アーキテクチャを探索する。
このモデルは、台湾上空の地域気象モデルから2kmのデータを予測するために訓練され、世界25kmの再解析に基づいている。
論文 参考訳(メタデータ) (2023-09-24T19:57:22Z) - Rethinking Real-world Image Deraining via An Unpaired Degradation-Conditioned Diffusion Model [51.49854435403139]
本研究では,拡散モデルに基づく最初の実世界の画像デライニングパラダイムであるRainDiffを提案する。
安定的で非敵対的なサイクル一貫性のあるアーキテクチャを導入し、トレーニングをエンドツーエンドで行えます。
また,複数の降雨の先行学習によって条件付けられた拡散生成過程を通じて,所望の出力を洗練する劣化条件拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-23T13:34:01Z) - Semi-Supervised Video Deraining with Dynamic Rain Generator [59.71640025072209]
本稿では,降雨層に適合する動的降雨発生器を用いた半教師付きビデオデレーシング手法を提案する。
具体的には、1つのエミッションモデルと1つのトランジションモデルから成り、空間的物理的構造と時系列の雨の連続的な変化を同時にエンコードする。
ラベル付き合成およびラベルなしの実データのために、それらの基礎となる共通知識を十分に活用するために、様々な先行フォーマットが設計されている。
論文 参考訳(メタデータ) (2021-03-14T14:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。