論文の概要: Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models
- arxiv url: http://arxiv.org/abs/2505.24227v1
- Date: Fri, 30 May 2025 05:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.78393
- Title: Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models
- Title(参考訳): 錯覚としての光:GPT駆動の自然照準と視線学習前訓練モデル
- Authors: Ying Yang, Jie Zhang, Xiao Lv, Di Lin, Tao Xiang, Qing Guo,
- Abstract要約: textbfLightDは、視覚・言語事前学習モデルのための自然な逆転サンプルを生成する新しいフレームワークである。
LightDは、シーンセマンティクスとの摂動を確実にしながら、最適化空間を拡張します。
- 参考スコア(独自算出の注目度): 56.84206059390887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While adversarial attacks on vision-and-language pretraining (VLP) models have been explored, generating natural adversarial samples crafted through realistic and semantically meaningful perturbations remains an open challenge. Existing methods, primarily designed for classification tasks, struggle when adapted to VLP models due to their restricted optimization spaces, leading to ineffective attacks or unnatural artifacts. To address this, we propose \textbf{LightD}, a novel framework that generates natural adversarial samples for VLP models via semantically guided relighting. Specifically, LightD leverages ChatGPT to propose context-aware initial lighting parameters and integrates a pretrained relighting model (IC-light) to enable diverse lighting adjustments. LightD expands the optimization space while ensuring perturbations align with scene semantics. Additionally, gradient-based optimization is applied to the reference lighting image to further enhance attack effectiveness while maintaining visual naturalness. The effectiveness and superiority of the proposed LightD have been demonstrated across various VLP models in tasks such as image captioning and visual question answering.
- Abstract(参考訳): 視覚・言語事前学習(VLP)モデルに対する敵対的攻撃が検討されているが、現実的で意味論的に意味のある摂動を通して作られた自然な敵対的サンプルを生成することは、未解決の課題である。
既存の手法は、主に分類タスクのために設計されており、最適化空間が制限されているため、VLPモデルに適応する際に苦労し、非効率な攻撃や非自然的なアーティファクトにつながる。
そこで本研究では,VLPモデルの自然対角的サンプルを生成する新しいフレームワークである‘textbf{LightD} を提案する。
具体的には、ChatGPTを活用して、コンテキスト対応の初期照明パラメータを提案し、事前訓練された照明モデル(IC-light)を統合し、多様な照明調整を可能にする。
LightDは、シーンセマンティクスとの摂動を確実にしながら、最適化空間を拡張します。
また、基準照明画像に勾配に基づく最適化を適用し、視覚的自然性を維持しつつ、攻撃効果をさらに高めている。
画像キャプションや視覚的質問応答といったタスクにおいて,提案したLightDの有効性と優位性が,様々なVLPモデルで実証されている。
関連論文リスト
- TSCnet: A Text-driven Semantic-level Controllable Framework for Customized Low-Light Image Enhancement [30.498816319802412]
そこで本研究では,アクセプティブ駆動,セマンティックレベル,量的明るさ調整による照明制御をカスタマイズする,新たな光強調タスクとフレームワークを提案する。
ベンチマークデータセットの実験結果は、可視性を高め、自然な色バランスを維持し、アーティファクトを作成することなく詳細を増幅するフレームワークの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-11T08:30:50Z) - When Lighting Deceives: Exposing Vision-Language Models' Illumination Vulnerability Through Illumination Transformation Attack [13.197468488144038]
VLM(Vision-Language Models)は様々なタスクにおいて顕著な成功を収めてきたが、現実の照明に対する頑健さは明らかにされていない。
textbfIllumination textbfTransformation textbfAttack (textbfITA)を提案する。
論文 参考訳(メタデータ) (2025-03-10T04:12:56Z) - D3DR: Lighting-Aware Object Insertion in Gaussian Splatting [48.80431740983095]
D3DRと呼ばれる3DGS並列化オブジェクトを3DGSシーンに挿入する手法を提案する。
我々は、現実世界のデータに基づいて訓練された拡散モデルの進歩を活用し、正しいシーンライティングを暗黙的に理解する。
提案手法を既存手法と比較することにより,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-03-09T19:48:00Z) - Low-Light Image Enhancement via Generative Perceptual Priors [75.01646333310073]
視覚言語モデル(VLM)を用いた新しいtextbfLLIE フレームワークを提案する。
まず、LL画像の複数の視覚特性を評価するためにVLMを誘導するパイプラインを提案し、その評価を定量化し、グローバルおよびローカルな知覚的先行情報を出力する。
LLIEを有効活用するために,これらの生成的知覚前駆体を組み込むため,拡散過程にトランスフォーマーベースのバックボーンを導入し,グローバルおよびローカルな知覚前駆体によってガイドされる新しい層正規化(textittextbfLPP-Attn)を開発する。
論文 参考訳(メタデータ) (2024-12-30T12:51:52Z) - DifFRelight: Diffusion-Based Facial Performance Relighting [12.909429637057343]
拡散に基づく画像から画像への変換を用いた,自由視点顔の表情のリライティングのための新しいフレームワークを提案する。
我々は、正確な照明制御のための拡散モデルを訓練し、フラットライト入力からの顔画像の高忠実度化を可能にする。
このモデルは、目の反射、地表面散乱、自影、半透明といった複雑な照明効果を正確に再現する。
論文 参考訳(メタデータ) (2024-10-10T17:56:44Z) - Unsupervised Low-light Image Enhancement with Lookup Tables and Diffusion Priors [38.96909959677438]
低照度画像強調(LIE)は、低照度環境において劣化した画像を高精度かつ効率的に回収することを目的としている。
近年の先進的なLIE技術は、多くの低正規の光画像対、ネットワークパラメータ、計算資源を必要とするディープニューラルネットワークを使用している。
拡散先行とルックアップテーブルに基づく新しい非教師付きLIEフレームワークを考案し,低照度画像の効率的な回復を実現する。
論文 参考訳(メタデータ) (2024-09-27T16:37:27Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - Learning Flow-based Feature Warping for Face Frontalization with
Illumination Inconsistent Supervision [73.18554605744842]
Flow-based Feature Warping Model (FFWM) は、正面画像を保存するフォトリアリスティックおよび照明の合成を学ぶ。
Illumination Preserving Module (IPM) を提案する。
Warp Attention Module (WAM) は、機能レベルでのポーズの相違を低減するために導入された。
論文 参考訳(メタデータ) (2020-08-16T06:07:00Z) - Unsupervised Low-light Image Enhancement with Decoupled Networks [103.74355338972123]
我々は、実世界の低照度画像を教師なしで拡張する2段階のGANベースのフレームワークを学習する。
提案手法は,照度向上と雑音低減の両面から,最先端の教師なし画像強調法より優れる。
論文 参考訳(メタデータ) (2020-05-06T13:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。