論文の概要: VLMs Can Aggregate Scattered Training Patches
- arxiv url: http://arxiv.org/abs/2506.03614v1
- Date: Wed, 04 Jun 2025 06:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.186272
- Title: VLMs Can Aggregate Scattered Training Patches
- Title(参考訳): VLMは散乱したトレーニングパッチを集約できる
- Authors: Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu,
- Abstract要約: 視覚言語モデル(VLM)は、有害な画像を良質なパッチに分割することで、データモデレーションを回避することができることを示す。
VLMは、フルイメージまたはテキスト参照から、推論時に有害な応答を生成する。
「危険画像のパッチを使い、IDを「安全」や「安全でない」といったテキスト記述に置き換えることで、敵のデータ中毒のシナリオをシミュレートする。」
- 参考スコア(独自算出の注目度): 5.171482201526706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One way to mitigate risks in vision-language models (VLMs) is to remove dangerous samples in their training data. However, such data moderation can be easily bypassed when harmful images are split into small, benign-looking patches, scattered across many training samples. VLMs may then learn to piece these fragments together during training and generate harmful responses at inference, either from full images or text references. For instance, if trained on image patches from a bloody scene paired with the descriptions "safe," VLMs may later describe, the full image or a text reference to the scene, as "safe." We define the core ability of VLMs enabling this attack as $\textit{visual stitching}$ -- the ability to integrate visual information spread across multiple training samples that share the same textual descriptions. In our work, we first demonstrate visual stitching abilities in common open-source VLMs on three datasets where each image is labeled with a unique synthetic ID: we split each $(\texttt{image}, \texttt{ID})$ pair into $\{(\texttt{patch}, \texttt{ID})\}$ pairs at different granularity for finetuning, and we find that tuned models can verbalize the correct IDs from full images or text reference. Building on this, we simulate the adversarial data poisoning scenario mentioned above by using patches from dangerous images and replacing IDs with text descriptions like ``safe'' or ``unsafe'', demonstrating how harmful content can evade moderation in patches and later be reconstructed through visual stitching, posing serious VLM safety risks. Code is available at https://github.com/ZHZisZZ/visual-stitching.
- Abstract(参考訳): 視覚言語モデル(VLM)のリスクを軽減する1つの方法は、トレーニングデータから危険なサンプルを取り除くことである。
しかし、このようなデータモデレーションは、有害な画像が小さな、良質なパッチに分割され、多くのトレーニングサンプルに散らばって、容易に回避できる。
VLMはトレーニング中にこれらのフラグメントをまとめることを学び、フルイメージまたはテキスト参照から推論時に有害な応答を生成する。
例えば、血まみれのシーンのイメージパッチに"safe"という記述が組み合わされた場合、VLMは後にフルイメージやシーンを参照するテキストを"safe"と記述する。
この攻撃を可能にするVLMの中核的な能力は、$\textit{visual stitching}$ -- 同じテキスト記述を共有する複数のトレーニングサンプルに広がる視覚情報を統合する機能である。
我々はまず,各画像にユニークな合成IDをラベル付けした3つのデータセット上で,共通オープンソースVLMの視覚的縫合能力をデモした: それぞれの$(\texttt{image}, \textt{ID})$ pairを$\{(\textt{patch}, \texttt{ID})\}$ pairs at different granularity for finetuning, and we found that tuned model canalized the correct IDs from full image or text reference。
これに基づいて、危険な画像からのパッチを使用し、"`safe'' や '`unsafe'' などのテキスト記述にIDを置き換え、有害なコンテンツがパッチのモデレーションを回避し、視覚的縫合によって再構築され、深刻なVLM安全リスクを生じさせることで、上記の敵データ中毒シナリオをシミュレートする。
コードはhttps://github.com/ZHZisZZ/visual-stitching.comで入手できる。
関連論文リスト
- SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM [40.83149588857177]
大規模視覚言語モデル(LVLM)は、複数モーダル入力を処理する視覚モジュールと整列した大言語モデル(LLM)を統合する。
セキュリティテンソル(Security tensor) - テキストや視覚のモダリティを通じて推論中に適用されるトレーニング可能な入力ベクトル。
論文 参考訳(メタデータ) (2025-07-28T16:59:53Z) - On the Feasibility of Poisoning Text-to-Image AI Models via Adversarial Mislabeling [24.730395152276927]
インターネットから得られる何百万もの画像に対してテキスト・画像生成モデルを訓練し、それぞれが視覚言語モデル(VLM)によって生成された詳細なキャプションと組み合わせる。
VLMは、画像に摂動を付加し、VLMを誤ったキャプションを発生させる、ステルスな敵攻撃に対して脆弱である。
潜在的な防御効果は有効であるが、アダプティブアタッカーによる攻撃を標的とし回避することができる。
論文 参考訳(メタデータ) (2025-06-27T03:13:47Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Can Visual Encoder Learn to See Arrows? [6.561578916344682]
画像エンコーダがエッジ表現を学習できるかどうかを図形データセット上で学習する。
そこで我々は,画像エンコーダを訓練するために,人工的に生成されたダイアグラム・キャプション・データセットに対してコントラスト学習を行う。
以上の結果から, 微調整モデルでは, プレトレーニング済みのCLIPよりも優れ, キャプションタスクではゼロショットGPT-4o, LLaVA-Mistralよりも優れていた。
論文 参考訳(メタデータ) (2025-05-26T13:09:31Z) - VLSBench: Unveiling Visual Leakage in Multimodal Safety [39.344623032631475]
MLLM(Multimodal large language model)の安全性に関する懸念は、様々なアプリケーションにおいて徐々に重要な問題となっている。
これまでの研究は、テキストアンラーニングを用いてMLLMを整列させ、画像テキストペアに整列したMLLMと同等の安全性を実現するという、直感的な現象を示している。
論文 参考訳(メタデータ) (2024-11-29T18:56:37Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - Can language-guided unsupervised adaptation improve medical image classification using unpaired images and texts? [14.547437214214485]
医用画像分類では,ラベル付き医用画像が不足しているため,教師あり学習が困難である。
視覚言語モデル(VLM)のアンダーラインUnアンダーライン適応(textttMedUnA)を提案する。
LLMの生成した各クラスの記述は、テキスト埋め込みにエンコードされ、クロスモーダルアダプタを介してクラスラベルにマッチする。
論文 参考訳(メタデータ) (2024-09-03T09:25:51Z) - List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs [160.6296629396925]
『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。
比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
論文 参考訳(メタデータ) (2024-04-25T07:29:17Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。