論文の概要: Unaligning Everything: Or Aligning Any Text to Any Image in Multimodal Models
- arxiv url: http://arxiv.org/abs/2407.01157v1
- Date: Mon, 1 Jul 2024 10:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:59:43.059730
- Title: Unaligning Everything: Or Aligning Any Text to Any Image in Multimodal Models
- Title(参考訳): あらゆるものを無視する: マルチモーダルモデルでどんな画像でもテキストをアラインする
- Authors: Shaeke Salman, Md Montasir Bin Shams, Xiuwen Liu,
- Abstract要約: 我々は、識別可能なテキストの埋め込みを、目立たない敵の攻撃によって、任意の画像に合わせることができることを示す。
本手法は,複数の情報源からのテキストデータセットや画像に適用した場合,100%の成功率を達成する。
- 参考スコア(独自算出の注目度): 1.5498250598583487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Utilizing a shared embedding space, emerging multimodal models exhibit unprecedented zero-shot capabilities. However, the shared embedding space could lead to new vulnerabilities if different modalities can be misaligned. In this paper, we extend and utilize a recently developed effective gradient-based procedure that allows us to match the embedding of a given text by minimally modifying an image. Using the procedure, we show that we can align the embeddings of distinguishable texts to any image through unnoticeable adversarial attacks in joint image-text models, revealing that semantically unrelated images can have embeddings of identical texts and at the same time visually indistinguishable images can be matched to the embeddings of very different texts. Our technique achieves 100\% success rate when it is applied to text datasets and images from multiple sources. Without overcoming the vulnerability, multimodal models cannot robustly align inputs from different modalities in a semantically meaningful way. \textbf{Warning: the text data used in this paper are toxic in nature and may be offensive to some readers.}
- Abstract(参考訳): 共有埋め込み空間を利用することで、新興のマルチモーダルモデルは前例のないゼロショット能力を示す。
しかし、異なるモダリティが一致しない場合、共有埋め込みスペースは新たな脆弱性を引き起こす可能性がある。
本稿では,画像の修正を最小限にすることで,与えられたテキストの埋め込みと一致するように,最近開発された効果的な勾配に基づく手順を拡張し,活用する。
本手法を用いて, 識別可能なテキストの埋め込みを, 共同画像-テキストモデルにおける無意味な敵対的攻撃によって任意の画像に整合させることができることを示すとともに, 意味的に無関係な画像が同一のテキストの埋め込みを持つことができ, 同時に, 視覚的に識別不能な画像が全く異なるテキストの埋め込みと一致できることを明らかにする。
本手法は,複数の情報源からのテキストデータセットや画像に適用した場合,100%の成功率を達成する。
脆弱性を克服しなければ、マルチモーダルモデルは意味論的に意味のある方法で異なるモダリティからの入力を堅牢に調整することはできない。
textbf{Warning: この論文で使用されるテキストデータは、自然界で有害であり、一部の読者にとって攻撃的である可能性がある。
※
関連論文リスト
- Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Simultaneous Multiple-Prompt Guided Generation Using Differentiable
Optimal Transport [41.265684813975625]
テキストキューから画像を生成することによって操作するテキスト・ツー・イメージ合成アプローチは、一点を論じる。
本稿では,最適輸送(OT)文献に見られるマッチング手法を用いて,多様なプロンプトを忠実に反映できる画像を提案する。
論文 参考訳(メタデータ) (2022-04-18T03:46:06Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。