論文の概要: CapRecover: A Cross-Modality Feature Inversion Attack Framework on Vision Language Models
- arxiv url: http://arxiv.org/abs/2507.22828v1
- Date: Wed, 30 Jul 2025 16:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.340846
- Title: CapRecover: A Cross-Modality Feature Inversion Attack Framework on Vision Language Models
- Title(参考訳): CapRecover:ビジョン言語モデルに基づくクロスモーダル機能反転攻撃フレームワーク
- Authors: Kedong Xiu, Saiqian Zhang,
- Abstract要約: CapRecoverは、ラベルやキャプションなどの高レベルのセマンティックコンテンツを、画像再構成なしで中間機能から直接復元する。
本稿では,各層における中間機能にランダムノイズを付加し,次層におけるノイズを除去する,シンプルで効果的な保護手法を提案する。
実験の結果,追加のトレーニングコストを伴わずにセマンティックリークを防止できることが示唆された。
- 参考スコア(独自算出の注目度): 5.980600755701699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision-Language Models (VLMs) are increasingly deployed in split-DNN configurations--with visual encoders (e.g., ResNet, ViT) operating on user devices and sending intermediate features to the cloud--there is a growing privacy risk from semantic information leakage. Existing approaches to reconstructing images from these intermediate features often result in blurry, semantically ambiguous images. To directly address semantic leakage, we propose CapRecover, a cross-modality inversion framework that recovers high-level semantic content, such as labels or captions, directly from intermediate features without image reconstruction. We evaluate CapRecover on multiple datasets and victim models, demonstrating strong performance in semantic recovery. Specifically, CapRecover achieves up to 92.71% Top-1 label accuracy on CIFAR-10 and generates fluent captions from ResNet50 features on COCO2017 with ROUGE-L scores up to 0.52. Our analysis further reveals that deeper convolutional layers encode significantly more semantic information compared to shallow layers. To mitigate semantic leakage, we introduce a simple yet effective protection method: adding random noise to intermediate features at each layer and removing the noise in the next layer. Experimental results show that this approach prevents semantic leakage without additional training costs.
- Abstract(参考訳): Vision-Language Models(VLM)は、ユーザデバイス上で動作し、中間機能をクラウドに送信するビジュアルエンコーダ(例えばResNet、ViT)を備えた、分割DNN構成にますますデプロイされているため、セマンティック情報漏洩によるプライバシーリスクは増大する。
これらの中間的特徴からイメージを再構成するための既存のアプローチは、しばしば曖昧で意味的に曖昧なイメージをもたらす。
画像再構成なしに中間機能から直接ラベルやキャプションなどの高レベルなセマンティックコンテンツを復元するクロスモーダル・インバージョン・フレームワークであるCapRecoverを提案する。
CapRecoverを複数のデータセットと被害者モデルで評価し,セマンティックリカバリにおいて高い性能を示した。
具体的には、CapRecoverはCIFAR-10で92.71%のTop-1ラベルの精度を達成し、COCO2017のResNet50機能から、ROUGE-Lスコアを最大0.52まで出力する。
我々の分析により、深い畳み込み層は浅い層に比べてはるかに多くの意味情報をエンコードしていることが明らかとなった。
セマンティックリークを軽減するため,各層における中間機能にランダムノイズを付加し,次の層におけるノイズを除去する,シンプルで効果的な保護手法を提案する。
実験の結果,追加のトレーニングコストを伴わずにセマンティックリークを防止できることが示唆された。
関連論文リスト
- Language Integration in Fine-Tuning Multimodal Large Language Models for Image-Based Regression [2.9998889086656586]
本稿では,トランスフォーマーベース分類(RvTC)が語彙制約型分類を柔軟なビンベースアプローチで置き換える方法を示す。
汎用的なタスク記述とは異なり、特定の画像に関する意味情報を含むプロンプトにより、MLLMはクロスモーダル理解を活用することができる。
論文 参考訳(メタデータ) (2025-07-20T15:05:24Z) - CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [18.288738950822342]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。
本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。
実験の結果,本手法はトレーニング不要の手法だけでなく,何百万ものデータサンプルを微調整した手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-12T19:00:04Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Towards Semantic Communications: Deep Learning-Based Image Semantic
Coding [42.453963827153856]
我々は,よりセマンティクスや帯域幅に敏感な画像データに対するセマンティクス通信を考案した。
画素レベルを超えて画像を符号化する強化学習に基づく適応意味符号化(RL-ASC)手法を提案する。
実験の結果,提案したRL-ASCはノイズ耐性があり,視覚的に快適でセマンティックな一貫した画像の再構成が可能であった。
論文 参考訳(メタデータ) (2022-08-08T12:29:55Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - SAPNet: Segmentation-Aware Progressive Network for Perceptual
Contrastive Deraining [2.615176171489612]
単一画像のデライニングのためのコントラスト学習に基づくセグメンテーション・アウェア・プログレッシブ・ネットワーク(SAPNet)を提案する。
本モデルでは,オブジェクト検出とセマンティックセマンティックセグメンテーションを高い精度で支援する。
論文 参考訳(メタデータ) (2021-11-17T03:57:11Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。