論文の概要: Reading Isn't Believing: Adversarial Attacks On Multi-Modal Neurons
- arxiv url: http://arxiv.org/abs/2103.10480v1
- Date: Thu, 18 Mar 2021 18:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 23:05:34.044415
- Title: Reading Isn't Believing: Adversarial Attacks On Multi-Modal Neurons
- Title(参考訳): 読書は信じない:マルチモーダルニューロンに対する敵対的攻撃
- Authors: David A. Noever, Samantha E. Miller Noever
- Abstract要約: 矛盾するテキストと画像信号は、モデルを混乱させ、誤った(視覚的)オプションを選択することができることを示す。
例として、CLIPモデルが最初に読む傾向があり、後で見て、読み取りが信じていないと記述する現象を示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With Open AI's publishing of their CLIP model (Contrastive Language-Image
Pre-training), multi-modal neural networks now provide accessible models that
combine reading with visual recognition. Their network offers novel ways to
probe its dual abilities to read text while classifying visual objects. This
paper demonstrates several new categories of adversarial attacks, spanning
basic typographical, conceptual, and iconographic inputs generated to fool the
model into making false or absurd classifications. We demonstrate that
contradictory text and image signals can confuse the model into choosing false
(visual) options. Like previous authors, we show by example that the CLIP model
tends to read first, look later, a phenomenon we describe as reading isn't
believing.
- Abstract(参考訳): Open AIのCLIPモデル(Contrastive Language- Image Pre-training)の公開により、マルチモーダルニューラルネットワークは、読み取りと視覚認識を組み合わせたアクセス可能なモデルを提供する。
彼らのネットワークは、視覚オブジェクトを分類しながらテキストを読む2つの能力を調べる新しい方法を提供する。
本稿では,モデルを騙して虚偽あるいは不条理な分類を行うための基本的なタイポグラフィー的,概念的,図像的入力にまたがる,敵対的攻撃のいくつかの新しいカテゴリを示す。
矛盾するテキストと画像信号は、モデルを混乱させ、誤った(視覚的)オプションを選択することができることを実証する。
以前の著者と同様に、CLIPモデルが最初に読む傾向があり、後から見れば、読書が信じていないと記述する現象であることを示している。
関連論文リスト
- Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Text-To-Concept (and Back) via Cross-Model Alignment [48.133333356834186]
一方のモデルにおける画像表現と他方のモデルにおける画像表現とのマッピングは、ただの線形層で驚くほどよく学習できることを示す。
固定オフザシェルフビジョンエンコーダを驚くほど強力なゼロショット分類器に無償で変換する。
概念監督なしで概念ボトルネックモデルを構築するなど、テキスト・トゥ・コンセプトの即時使用例を示す。
論文 参考訳(メタデータ) (2023-05-10T18:01:06Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - Freestyle Layout-to-Image Synthesis [42.64485133926378]
この研究では、モデルの自由なスタイルの能力、すなわち、与えられたレイアウト上に見知らぬセマンティクスをどの程度生成できるかを探索する。
これに触発されて、我々は、大規模事前訓練されたテキスト-画像拡散モデルを利用して、目に見えないセマンティクスを生成することを選んだ。
提案した拡散ネットワークは,テキスト入力を多用したリアルかつ自由なレイアウト・ツー・イメージ生成結果を生成する。
論文 参考訳(メタデータ) (2023-03-25T09:37:41Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - A Computational Acquisition Model for Multimodal Word Categorization [35.82822305925811]
本稿では, イメージ・キャプション・ペアから学習した, 認知に着想を得たマルチモーダル獲得モデルを提案する。
本モデルでは,単語のカテゴリとオブジェクト認識能力について学習し,発達文献で報告されたような傾向を示す。
論文 参考訳(メタデータ) (2022-05-12T09:28:55Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。