論文の概要: SLANT: Spurious Logo ANalysis Toolkit
- arxiv url: http://arxiv.org/abs/2406.01449v1
- Date: Mon, 3 Jun 2024 15:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:20:27.983895
- Title: SLANT: Spurious Logo ANalysis Toolkit
- Title(参考訳): SLANT:Spurious Logo Analysis Toolkit
- Authors: Maan Qraitem, Piotr Teterwak, Kate Saenko, Bryan A. Plummer,
- Abstract要約: SLANT: Spurious Logo Analysis Toolkitを開発した。
というロゴをマイニングするためのセミオートマチックなメカニズムが組み込まれている。
我々は、VLモデルが負の人形容詞と相関する様々な無害なロゴを発見した。
攻撃者は有害なコンテンツに急激なロゴを配置することができ、モデルがそれを無害と誤分類する原因となった。
- 参考スコア(独自算出の注目度): 61.59021920232986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online content is filled with logos, from ads and social media posts to website branding and product placements. Consequently, these logos are prevalent in the extensive web-scraped datasets used to pretrain Vision-Language Models, which are used for a wide array of tasks (content moderation, object classification). While these models have been shown to learn harmful correlations in various tasks, whether these correlations include logos remains understudied. Understanding this is especially important due to logos often being used by public-facing entities like brands and government agencies. To that end, we develop SLANT: A Spurious Logo ANalysis Toolkit. Our key finding is that some logos indeed lead to spurious incorrect predictions, for example, adding the Adidas logo to a photo of a person causes a model classify the person as greedy. SLANT contains a semi-automatic mechanism for mining such "spurious" logos. The mechanism consists of a comprehensive logo bank, CC12M-LogoBank, and an algorithm that searches the bank for logos that VLMs spuriously correlate with a user-provided downstream recognition target. We uncover various seemingly harmless logos that VL models correlate 1) with negative human adjectives 2) with the concept of `harmlessness'; causing models to misclassify harmful online content as harmless, and 3) with user-provided object concepts; causing lower recognition accuracy on ImageNet zero-shot classification. Furthermore, SLANT's logos can be seen as effective attacks against foundational models; an attacker could place a spurious logo on harmful content, causing the model to misclassify it as harmless. This threat is alarming considering the simplicity of logo attacks, increasing the attack surface of VL models. As a defense, we include in our Toolkit two effective mitigation strategies that seamlessly integrate with zero-shot inference of foundation models.
- Abstract(参考訳): オンラインコンテンツは、広告やソーシャルメディアの投稿からウェブサイトのブランディングや製品の配置まで、ロゴでいっぱいだ。
その結果、これらのロゴは、広範囲なタスク(コンテンツモデレーション、オブジェクト分類)に使用されるビジョン・ランゲージ・モデル(Vision-Language Models)の事前トレーニングに使用される広範囲なWebスクラッドデータセットで広く使われている。
これらのモデルは様々なタスクにおいて有害な相関関係を学習することが示されているが、これらの相関関係がロゴを含むかどうかはまだ調査されていない。
このことを理解することは、ブランドや政府機関のような公共向け機関でよく使われているロゴのため、特に重要である。
そこで我々はSLANT: A Spurious Logo ANalysis Toolkitを開発した。
例えば、人の写真にAdidasのロゴを追加すると、モデルがその人物を欲張りと分類する。
SLANTには、このような「すっきりとした」ロゴをマイニングするための半自動メカニズムが含まれている。
この仕組みは、総合的なロゴバンクCC12M-LogoBankと、VLMがユーザが提供する下流認識ターゲットと急激な相関関係を持つロゴを銀行に検索するアルゴリズムで構成されている。
VLモデルと相関するさまざまな無害なロゴを発見
1)陰性な人形容詞
2)「無害」の概念により、有害なオンラインコンテンツを無害と誤分類させ、
3) ImageNetゼロショット分類では認識精度が低い。
さらに、SLANTのロゴは、基本的なモデルに対する効果的な攻撃と見なすことができ、攻撃者は有害なコンテンツに刺激的なロゴを配置することができ、モデルが無害であると誤分類する原因となった。
この脅威は、ロゴアタックの単純さを考慮して警戒されており、VLモデルのアタックサーフェスを増加させている。
防御として、基礎モデルのゼロショット推論とシームレスに統合する2つの効果的な緩和戦略をツールキットに含めています。
関連論文リスト
- LogoSticker: Inserting Logos into Diffusion Models for Customized Generation [73.59571559978278]
テキスト・ツー・イメージ・モデルにロゴを挿入する作業を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:54:49Z) - LogoNet: a fine-grained network for instance-level logo sketch retrieval [7.858317554338922]
2kのロゴインスタンスと9k以上のスケッチを含むインスタンスレベルのロゴスケッチデータセットを構築した。
次に、ロゴの正確なスケッチ検索のためのLogoNetと呼ばれるハイブリッドアテンション機構に基づく、きめ細かいトリプルブランチCNNアーキテクチャを開発する。
論文 参考訳(メタデータ) (2023-04-05T04:03:02Z) - Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred
Thousand-Scale One-Shot Logo Identification [2.243832625209014]
オープン・セットのワンショット・セッティングにおいて,ビジネスブランドのロゴを自然シーンで識別する問題について検討する。
ロゴに現れるテキストをエンコードする新しい多視点テキスト視覚符号化フレームワークを提案する。
提案手法は, 自然シーンの作業において, 作付ロゴ識別, 作付ロゴ識別, エンド・ツー・エンドのロゴ識別を行う。
論文 参考訳(メタデータ) (2022-11-23T12:59:41Z) - Discriminative Semantic Feature Pyramid Network with Guided Anchoring
for Logo Detection [52.36825190893928]
我々は,DSFP-GAを用いた識別的セマンティック特徴ピラミッドネットワークという新しい手法を提案する。
我々のアプローチは主に差別的セマンティック特徴ピラミッド(DSFP)とガイドアンコリング(GA)から構成される。
論文 参考訳(メタデータ) (2021-08-31T11:59:00Z) - An Effective and Robust Detector for Logo Detection [58.448716977297565]
一部の攻撃者は、よく訓練されたロゴ検出モデルを侵害で騙している。
本稿では,2回検討する機構に基づく新しいロゴ検出手法を提案する。
我々は,デテクトRSアルゴリズムを,等化損失関数,マルチスケール変換,および逆データ拡張を備えたカスケードスキーマに拡張する。
論文 参考訳(メタデータ) (2021-08-01T10:17:53Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - LogoDet-3K: A Large-Scale Image Dataset for Logo Detection [61.296935298332606]
完全アノテーション付き最大のロゴ検出データセットであるLogoDet-3Kを紹介する。
3000のロゴカテゴリー、約20万の注釈付きロゴオブジェクト、158,652の画像がある。
大規模なロゴ検出のための最先端のYOLOv3フレームワークにFocal LosとCIoU Losを組み込んだ強力なベースライン手法であるLogo-Yoloを提案する。
論文 参考訳(メタデータ) (2020-08-12T14:57:53Z) - Network of Steel: Neural Font Style Transfer from Heavy Metal to
Corporate Logos [0.18275108630751835]
本稿では,重金属バンドのロゴからVGG16ネットワークを用いた企業ロゴへのスタイル転送手法を提案する。
スタイル学習への異なるレイヤと損失係数の寄与を確立する。
ヘビーメタルスタイルと企業ロゴの可読性との間に良いトレードオフをもたらす層と損失係数が見つかります。
論文 参考訳(メタデータ) (2020-01-10T20:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。