論文の概要: VLMs Can Aggregate Scattered Training Patches
- arxiv url: http://arxiv.org/abs/2506.03614v1
- Date: Wed, 04 Jun 2025 06:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.186272
- Title: VLMs Can Aggregate Scattered Training Patches
- Title(参考訳): VLMは散乱したトレーニングパッチを集約できる
- Authors: Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu,
- Abstract要約: 視覚言語モデル(VLM)は、有害な画像を良質なパッチに分割することで、データモデレーションを回避することができることを示す。
VLMは、フルイメージまたはテキスト参照から、推論時に有害な応答を生成する。
「危険画像のパッチを使い、IDを「安全」や「安全でない」といったテキスト記述に置き換えることで、敵のデータ中毒のシナリオをシミュレートする。」
- 参考スコア(独自算出の注目度): 5.171482201526706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One way to mitigate risks in vision-language models (VLMs) is to remove dangerous samples in their training data. However, such data moderation can be easily bypassed when harmful images are split into small, benign-looking patches, scattered across many training samples. VLMs may then learn to piece these fragments together during training and generate harmful responses at inference, either from full images or text references. For instance, if trained on image patches from a bloody scene paired with the descriptions "safe," VLMs may later describe, the full image or a text reference to the scene, as "safe." We define the core ability of VLMs enabling this attack as $\textit{visual stitching}$ -- the ability to integrate visual information spread across multiple training samples that share the same textual descriptions. In our work, we first demonstrate visual stitching abilities in common open-source VLMs on three datasets where each image is labeled with a unique synthetic ID: we split each $(\texttt{image}, \texttt{ID})$ pair into $\{(\texttt{patch}, \texttt{ID})\}$ pairs at different granularity for finetuning, and we find that tuned models can verbalize the correct IDs from full images or text reference. Building on this, we simulate the adversarial data poisoning scenario mentioned above by using patches from dangerous images and replacing IDs with text descriptions like ``safe'' or ``unsafe'', demonstrating how harmful content can evade moderation in patches and later be reconstructed through visual stitching, posing serious VLM safety risks. Code is available at https://github.com/ZHZisZZ/visual-stitching.
- Abstract(参考訳): 視覚言語モデル(VLM)のリスクを軽減する1つの方法は、トレーニングデータから危険なサンプルを取り除くことである。
しかし、このようなデータモデレーションは、有害な画像が小さな、良質なパッチに分割され、多くのトレーニングサンプルに散らばって、容易に回避できる。
VLMはトレーニング中にこれらのフラグメントをまとめることを学び、フルイメージまたはテキスト参照から推論時に有害な応答を生成する。
例えば、血まみれのシーンのイメージパッチに"safe"という記述が組み合わされた場合、VLMは後にフルイメージやシーンを参照するテキストを"safe"と記述する。
この攻撃を可能にするVLMの中核的な能力は、$\textit{visual stitching}$ -- 同じテキスト記述を共有する複数のトレーニングサンプルに広がる視覚情報を統合する機能である。
我々はまず,各画像にユニークな合成IDをラベル付けした3つのデータセット上で,共通オープンソースVLMの視覚的縫合能力をデモした: それぞれの$(\texttt{image}, \textt{ID})$ pairを$\{(\textt{patch}, \texttt{ID})\}$ pairs at different granularity for finetuning, and we found that tuned model canalized the correct IDs from full image or text reference。
これに基づいて、危険な画像からのパッチを使用し、"`safe'' や '`unsafe'' などのテキスト記述にIDを置き換え、有害なコンテンツがパッチのモデレーションを回避し、視覚的縫合によって再構築され、深刻なVLM安全リスクを生じさせることで、上記の敵データ中毒シナリオをシミュレートする。
コードはhttps://github.com/ZHZisZZ/visual-stitching.comで入手できる。
関連論文リスト
- VLSBench: Unveiling Visual Leakage in Multimodal Safety [39.344623032631475]
MLLM(Multimodal large language model)の安全性に関する懸念は、様々なアプリケーションにおいて徐々に重要な問題となっている。
これまでの研究は、テキストアンラーニングを用いてMLLMを整列させ、画像テキストペアに整列したMLLMと同等の安全性を実現するという、直感的な現象を示している。
論文 参考訳(メタデータ) (2024-11-29T18:56:37Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - Can language-guided unsupervised adaptation improve medical image classification using unpaired images and texts? [14.547437214214485]
医用画像分類では,ラベル付き医用画像が不足しているため,教師あり学習が困難である。
視覚言語モデル(VLM)のアンダーラインUnアンダーライン適応(textttMedUnA)を提案する。
LLMの生成した各クラスの記述は、テキスト埋め込みにエンコードされ、クロスモーダルアダプタを介してクラスラベルにマッチする。
論文 参考訳(メタデータ) (2024-09-03T09:25:51Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。