論文の概要: When Lighting Deceives: Exposing Vision-Language Models' Illumination Vulnerability Through Illumination Transformation Attack
- arxiv url: http://arxiv.org/abs/2503.06903v2
- Date: Fri, 21 Mar 2025 08:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:53:21.206426
- Title: When Lighting Deceives: Exposing Vision-Language Models' Illumination Vulnerability Through Illumination Transformation Attack
- Title(参考訳): 照明要因:照明変態攻撃による視覚言語モデルの照度変動を露呈する
- Authors: Hanqing Liu, Shouwei Ruan, Yao Huang, Shiji Zhao, Xingxing Wei,
- Abstract要約: VLM(Vision-Language Models)は様々なタスクにおいて顕著な成功を収めてきたが、現実の照明に対する頑健さは明らかにされていない。
textbfIllumination textbfTransformation textbfAttack (textbfITA)を提案する。
- 参考スコア(独自算出の注目度): 13.197468488144038
- License:
- Abstract: Vision-Language Models (VLMs) have achieved remarkable success in various tasks, yet their robustness to real-world illumination variations remains largely unexplored. To bridge this gap, we propose \textbf{I}llumination \textbf{T}ransformation \textbf{A}ttack (\textbf{ITA}), the first framework to systematically assess VLMs' robustness against illumination changes. However, there still exist two key challenges: (1) how to model global illumination with fine-grained control to achieve diverse lighting conditions and (2) how to ensure adversarial effectiveness while maintaining naturalness. To address the first challenge, we innovatively decompose global illumination into multiple parameterized point light sources based on the illumination rendering equation. This design enables us to model more diverse lighting variations that previous methods could not capture. Then, by integrating these parameterized lighting variations with physics-based lighting reconstruction techniques, we could precisely render such light interactions in the original scenes, finally meeting the goal of fine-grained lighting control. For the second challenge, by controlling illumination through the lighting reconstrution model's latent space rather than direct pixel manipulation, we inherently preserve physical lighting priors. Furthermore, to prevent potential reconstruction artifacts, we design additional perceptual constraints for maintaining visual consistency with original images and diversity constraints for avoiding light source convergence. Extensive experiments demonstrate that our ITA could significantly reduce the performance of advanced VLMs, e.g., LLaVA-1.6, while possessing competitive naturalness, exposing VLMS' critical illuminiation vulnerabilities.
- Abstract(参考訳): VLM(Vision-Language Models)は様々なタスクにおいて顕著な成功を収めてきたが、現実の照明に対する頑健さは明らかにされていない。
このギャップを埋めるために、最初にVLMのロバスト性を照明変化に対して体系的に評価するフレームワークである \textbf{I}llumination \textbf{T}ransformation \textbf{A}ttack (\textbf{ITA})を提案する。
しかし,(1)細粒度制御による世界照明のモデル化と,(2)自然性を維持しながら敵の有効性を確保する方法,の2つの課題がある。
最初の課題に対処するため、照明レンダリング方程式に基づいて、グローバル照明を複数のパラメータ化された点光源に革新的に分解する。
この設計により、従来の手法では捉えられなかったより多様な照明のバリエーションをモデル化できる。
そして、これらのパラメータ化された照明のバリエーションを物理ベースの照明再構成技術と組み合わせることで、元のシーンでそのような光の相互作用を正確にレンダリングし、最終的にきめ細かい照明制御の目標を満たすことができる。
第2の課題は、直接ピクセル操作ではなく、照明再構成モデルの潜時空間を通して照明を制御することにより、物理的照明先行を本質的に保持することである。
さらに, 画像との視覚的整合性を維持するための追加の知覚的制約と, 光源収束を回避するための多様性制約を設計する。
我々のITAは、競合する自然性を持ちながら、VLMSの致命的な照明脆弱性を露呈しながら、高度なVLM(例えばLLaVA-1.6)の性能を著しく低下させることができることを示した。
関連論文リスト
- DifFRelight: Diffusion-Based Facial Performance Relighting [12.909429637057343]
拡散に基づく画像から画像への変換を用いた,自由視点顔の表情のリライティングのための新しいフレームワークを提案する。
我々は、正確な照明制御のための拡散モデルを訓練し、フラットライト入力からの顔画像の高忠実度化を可能にする。
このモデルは、目の反射、地表面散乱、自影、半透明といった複雑な照明効果を正確に再現する。
論文 参考訳(メタデータ) (2024-10-10T17:56:44Z) - Attentive Illumination Decomposition Model for Multi-Illuminant White
Balancing [27.950125640986805]
多くの商用カメラにおけるホワイトバランス(WB)アルゴリズムは、単色および均一な照明を前提としている。
スロットアテンションを利用して,各スロットが個別の照度を表すようなホワイトバランスモデルを提案する。
この設計により、モデルは個々の照度に対する色度と重量マップを生成でき、最終照明マップを構成するために融合される。
論文 参考訳(メタデータ) (2024-02-28T12:15:29Z) - URHand: Universal Relightable Hands [64.25893653236912]
URHandは、視点、ポーズ、イルミネーション、アイデンティティを一般化する最初の普遍的照らし手モデルである。
本モデルでは,携帯電話で撮影した画像によるパーソナライズが可能であり,新たな照明下でのフォトリアリスティックなレンダリングが可能である。
論文 参考訳(メタデータ) (2024-01-10T18:59:51Z) - Relightable Neural Actor with Intrinsic Decomposition and Pose Control [80.06094206522668]
提案するRelightable Neural Actorは、ポーズ駆動型ニューラルヒューマンモデルを学ぶための新しいビデオベース手法である。
トレーニングのためには、既知のが静的な照明条件下での人間のマルチビュー記録のみを必要とする。
実世界のシナリオにおける我々のアプローチを評価するため、屋内と屋外の異なる光条件下で記録された4つのアイデンティティを持つ新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-12-18T14:30:13Z) - Diving into Darkness: A Dual-Modulated Framework for High-Fidelity
Super-Resolution in Ultra-Dark Environments [51.58771256128329]
本稿では,低照度超解像課題の性質を深く理解しようとする,特殊二変調学習フレームワークを提案する。
Illuminance-Semantic Dual Modulation (ISDM) コンポーネントを開発した。
包括的実験は、我々のアプローチが多様で挑戦的な超低照度条件に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-09-11T06:55:32Z) - Improving Lens Flare Removal with General Purpose Pipeline and Multiple
Light Sources Recovery [69.71080926778413]
フレアアーティファクトは、画像の視覚的品質と下流のコンピュータビジョンタスクに影響を与える。
現在の方法では、画像信号処理パイプラインにおける自動露光やトーンマッピングは考慮されていない。
本稿では、ISPを再検討し、より信頼性の高い光源回収戦略を設計することで、レンズフレア除去性能を向上させるソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-31T04:58:17Z) - Physically Inspired Dense Fusion Networks for Relighting [45.66699760138863]
物理的洞察でニューラルネットワークを豊かにするモデルを提案する。
2つの異なる戦略により、新しい照明設定でリライト画像を生成します。
提案手法は,よく知られた忠実度指標と知覚的損失の点で,最先端手法を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-05-05T17:33:45Z) - Learning Flow-based Feature Warping for Face Frontalization with
Illumination Inconsistent Supervision [73.18554605744842]
Flow-based Feature Warping Model (FFWM) は、正面画像を保存するフォトリアリスティックおよび照明の合成を学ぶ。
Illumination Preserving Module (IPM) を提案する。
Warp Attention Module (WAM) は、機能レベルでのポーズの相違を低減するために導入された。
論文 参考訳(メタデータ) (2020-08-16T06:07:00Z) - Unsupervised Low-light Image Enhancement with Decoupled Networks [103.74355338972123]
我々は、実世界の低照度画像を教師なしで拡張する2段階のGANベースのフレームワークを学習する。
提案手法は,照度向上と雑音低減の両面から,最先端の教師なし画像強調法より優れる。
論文 参考訳(メタデータ) (2020-05-06T13:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。