論文の概要: Image-Text Pre-Training for Logo Recognition
- arxiv url: http://arxiv.org/abs/2309.10206v1
- Date: Mon, 18 Sep 2023 23:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 17:08:05.396011
- Title: Image-Text Pre-Training for Logo Recognition
- Title(参考訳): ロゴ認識のための画像テキスト事前学習
- Authors: Mark Hubenthal, Suren Kumar
- Abstract要約: マッチングモデルの性能向上のための2つの新しいコントリビューションを提案する。
微調整済みのImageNet事前学習モデルの標準パラダイムは、マッチング問題を効果的に解決するために必要なテキスト感度を見つけるのに失敗する。
OpenLogoDet3K47で微調整された場合、イメージテキストデータ上で事前トレーニングされた同じビジョンバックボーンが、980.6%のリコール@1.99ドルを達成した。
- 参考スコア(独自算出の注目度): 0.27195102129094995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-set logo recognition is commonly solved by first detecting possible logo
regions and then matching the detected parts against an ever-evolving dataset
of cropped logo images. The matching model, a metric learning problem, is
especially challenging for logo recognition due to the mixture of text and
symbols in logos. We propose two novel contributions to improve the matching
model's performance: (a) using image-text paired samples for pre-training, and
(b) an improved metric learning loss function. A standard paradigm of
fine-tuning ImageNet pre-trained models fails to discover the text sensitivity
necessary to solve the matching problem effectively. This work demonstrates the
importance of pre-training on image-text pairs, which significantly improves
the performance of a visual embedder trained for the logo retrieval task,
especially for more text-dominant classes. We construct a composite public logo
dataset combining LogoDet3K, OpenLogo, and FlickrLogos-47 deemed
OpenLogoDet3K47. We show that the same vision backbone pre-trained on
image-text data, when fine-tuned on OpenLogoDet3K47, achieves $98.6\%$
recall@1, significantly improving performance over pre-training on Imagenet1K
($97.6\%$). We generalize the ProxyNCA++ loss function to propose ProxyNCAHN++
which incorporates class-specific hard negative images. The proposed method
sets new state-of-the-art on five public logo datasets considered, with a
$3.5\%$ zero-shot recall@1 improvement on LogoDet3K test, $4\%$ on OpenLogo,
$6.5\%$ on FlickrLogos-47, $6.2\%$ on Logos In The Wild, and $0.6\%$ on
BelgaLogo.
- Abstract(参考訳): オープンセットのロゴ認識は、まず可能なロゴ領域を検出し、その後に検出された部分と、常に進化を続けるクロッピングされたロゴ画像のデータセットとマッチングすることで、一般的に解決される。
マッチングモデル(メートル法学習問題)は,文字と記号が混在しているため,特にロゴ認識において困難である。
マッチングモデルの性能を向上させるための2つの新しい貢献を提案する。
(a)画像テキストペアサンプルを用いた事前学習
(b)改良されたメトリック学習損失関数。
微調整済みのImageNet事前学習モデルの標準パラダイムは、マッチング問題を効果的に解決するために必要なテキスト感度を見つけるのに失敗する。
本研究は, 画像テキストペアの事前学習の重要性を実証し, ロゴ検索タスク, 特にテキスト優位なクラスにおいて, 視覚埋め込みの性能を大幅に向上させるものである。
我々は,LogoDet3K,OpenLogo,FlickrLogos-47をOpenLogoDet3K47とみなした複合公開ロゴデータセットを構築した。
openlogodet3k47で微調整された場合、同じビジョンバックボーンが98.6\%$ recall@1となり、imagenet1k(97.6\%$)での事前トレーニングよりも大幅にパフォーマンスが向上する。
クラス固有のハード負の画像を含むProxyNCAHN++を提案するために,ProxyNCA++損失関数を一般化する。
提案手法は、5つの公開ロゴデータセットに新たな最先端設定を施し、ロゴデット3kテストで3.5\%$ zero-shot recall@1、openlogoで$4\%$、flickrlogos-47で$6.5\%$、ワイルドで$6.2\%$、ベルガログで$0.6\%である。
関連論文リスト
- LogoSticker: Inserting Logos into Diffusion Models for Customized Generation [73.59571559978278]
テキスト・ツー・イメージ・モデルにロゴを挿入する作業を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:54:49Z) - RL-LOGO: Deep Reinforcement Learning Localization for Logo Recognition [0.0]
本稿では,強化学習に基づくローカライゼーション手法を取り入れた新しいロゴ画像認識手法を提案する。
位置座標にアノテーションがないため、画像中のロゴの位置を訓練して推測することは不可能である。
提案手法は,実世界のアプリケーションにおいて,ロゴ認識への有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2023-12-28T02:44:28Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred
Thousand-Scale One-Shot Logo Identification [2.243832625209014]
オープン・セットのワンショット・セッティングにおいて,ビジネスブランドのロゴを自然シーンで識別する問題について検討する。
ロゴに現れるテキストをエンコードする新しい多視点テキスト視覚符号化フレームワークを提案する。
提案手法は, 自然シーンの作業において, 作付ロゴ識別, 作付ロゴ識別, エンド・ツー・エンドのロゴ識別を行う。
論文 参考訳(メタデータ) (2022-11-23T12:59:41Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - An Effective and Robust Detector for Logo Detection [58.448716977297565]
一部の攻撃者は、よく訓練されたロゴ検出モデルを侵害で騙している。
本稿では,2回検討する機構に基づく新しいロゴ検出手法を提案する。
我々は,デテクトRSアルゴリズムを,等化損失関数,マルチスケール変換,および逆データ拡張を備えたカスケードスキーマに拡張する。
論文 参考訳(メタデータ) (2021-08-01T10:17:53Z) - Deep learning based registration using spatial gradients and noisy
segmentation labels [52.78503776563559]
ディープラーニングベースのアプローチは、高速かつ実行可能な登録戦略を提供することで、非常に人気を博しました。
我々の研究は(i)対称な定式化に依存し、ソースからターゲットへの変換とターゲットからソースへの変換を同時に予測し、訓練された表現を類似させる。
本手法では,タスク3では0.64ドル,テスト4では0.85ドルの平均ダイスを報告し,3位となった。
論文 参考訳(メタデータ) (2020-10-21T11:08:45Z) - LogoDet-3K: A Large-Scale Image Dataset for Logo Detection [61.296935298332606]
完全アノテーション付き最大のロゴ検出データセットであるLogoDet-3Kを紹介する。
3000のロゴカテゴリー、約20万の注釈付きロゴオブジェクト、158,652の画像がある。
大規模なロゴ検出のための最先端のYOLOv3フレームワークにFocal LosとCIoU Losを組み込んだ強力なベースライン手法であるLogo-Yoloを提案する。
論文 参考訳(メタデータ) (2020-08-12T14:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。