論文の概要: Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred
Thousand-Scale One-Shot Logo Identification
- arxiv url: http://arxiv.org/abs/2211.12926v1
- Date: Wed, 23 Nov 2022 12:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:36:26.567510
- Title: Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred
Thousand-Scale One-Shot Logo Identification
- Title(参考訳): コントラスト・マルチビュー・テキスト・ビジュアルエンコーディング--100万規模のワンショット・ロゴ識別に向けて
- Authors: Nakul Sharma, Abhirama S. Penamakuri, Anand Mishra
- Abstract要約: オープン・セットのワンショット・セッティングにおいて,ビジネスブランドのロゴを自然シーンで識別する問題について検討する。
ロゴに現れるテキストをエンコードする新しい多視点テキスト視覚符号化フレームワークを提案する。
提案手法は, 自然シーンの作業において, 作付ロゴ識別, 作付ロゴ識別, エンド・ツー・エンドのロゴ識別を行う。
- 参考スコア(独自算出の注目度): 2.243832625209014
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we study the problem of identifying logos of business brands
in natural scenes in an open-set one-shot setting. This problem setup is
significantly more challenging than traditionally-studied 'closed-set' and
'large-scale training samples per category' logo recognition settings. We
propose a novel multi-view textual-visual encoding framework that encodes text
appearing in the logos as well as the graphical design of the logos to learn
robust contrastive representations. These representations are jointly learned
for multiple views of logos over a batch and thereby they generalize well to
unseen logos. We evaluate our proposed framework for cropped logo verification,
cropped logo identification, and end-to-end logo identification in natural
scene tasks; and compare it against state-of-the-art methods. Further, the
literature lacks a 'very-large-scale' collection of reference logo images that
can facilitate the study of one-hundred thousand-scale logo identification. To
fill this gap in the literature, we introduce Wikidata Reference Logo Dataset
(WiRLD), containing logos for 100K business brands harvested from Wikidata. Our
proposed framework that achieves an area under the ROC curve of 91.3% on the
QMUL-OpenLogo dataset for the verification task, outperforms state-of-the-art
methods by 9.1% and 2.6% on the one-shot logo identification task on the
Toplogos-10 and the FlickrLogos32 datasets, respectively. Further, we show that
our method is more stable compared to other baselines even when the number of
candidate logos is on a 100K scale.
- Abstract(参考訳): 本稿では,オープンセットワンショット設定において,企業ブランドのロゴを自然シーンで識別する問題について検討する。
この問題の設定は、従来の「クローズドセット」や「カテゴリ毎の大規模トレーニングサンプル」のロゴ認識設定よりもはるかに難しい。
本稿では,ロゴに現れるテキストをエンコードする多視点テキスト視覚符号化フレームワークと,強健なコントラスト表現を学習するためのロゴのグラフィカルデザインを提案する。
これらの表現は、バッチ上で複数のロゴのビューのために共同で学習され、見当たらないロゴに対してうまく一般化される。
提案手法は,自然シーンタスクにおいて,カットロゴの検証,カットロゴの識別,エンド・ツー・エンドのロゴ識別の枠組みを評価し,最先端の手法と比較する。
さらに、文献には基準ロゴ画像の「非常に大規模な」コレクションが欠如しており、1百万のロゴ識別の研究が容易である。
文献のこのギャップを埋めるために,Wikidataから取得した100万のビジネスブランドのロゴを含むWikidata Reference Logo Dataset (WiRLD)を紹介した。
検証タスクのQMUL-OpenLogoデータセットでは,OC曲線の91.3%の領域を達成し,Toplogos-10とFlickrLogos32データセットでは,1ショットのロゴ識別タスクでは,最先端メソッドの9.1%,2.6%を上回った。
さらに,提案手法は,候補ロゴ数が100Kスケールであっても,他のベースラインよりも安定であることを示す。
関連論文リスト
- LogoSticker: Inserting Logos into Diffusion Models for Customized Generation [73.59571559978278]
テキスト・ツー・イメージ・モデルにロゴを挿入する作業を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:54:49Z) - SLANT: Spurious Logo ANalysis Toolkit [61.59021920232986]
SLANT: Spurious Logo Analysis Toolkitを開発した。
というロゴをマイニングするためのセミオートマチックなメカニズムが組み込まれている。
我々は、VLモデルが負の人形容詞と相関する様々な無害なロゴを発見した。
攻撃者は有害なコンテンツに急激なロゴを配置することができ、モデルがそれを無害と誤分類する原因となった。
論文 参考訳(メタデータ) (2024-06-03T15:41:31Z) - Image-Text Pre-Training for Logo Recognition [0.27195102129094995]
マッチングモデルの性能向上のための2つの新しいコントリビューションを提案する。
微調整済みのImageNet事前学習モデルの標準パラダイムは、マッチング問題を効果的に解決するために必要なテキスト感度を見つけるのに失敗する。
OpenLogoDet3K47で微調整された場合、イメージテキストデータ上で事前トレーニングされた同じビジョンバックボーンが、980.6%のリコール@1.99ドルを達成した。
論文 参考訳(メタデータ) (2023-09-18T23:18:02Z) - Deep Learning for Logo Detection: A Survey [59.278443852492465]
本稿では, 深層学習技術のロゴ検出への応用について概説する。
既存のロゴ検出戦略と学習戦略の長所と短所を詳細に分析する。
知的輸送やブランド監視から著作権や商標の遵守に至るまで,さまざまな分野におけるロゴ検出の応用を要約する。
論文 参考訳(メタデータ) (2022-10-10T02:07:41Z) - Makeup216: Logo Recognition with Adversarial Attention Representations [16.78131635640705]
メイクアップ216は、メイクアップの分野で最大の、そして最も複雑なロゴのデータセットで、現実世界から撮影された。
216のロゴと157のブランドで構成され、その中には10,019の画像と37,018の注釈付きロゴオブジェクトが含まれる。
提案するフレームワークは,Makeup216と他の大規模オープンロゴデータセットで競合する結果を得た。
論文 参考訳(メタデータ) (2021-12-13T10:08:56Z) - Discriminative Semantic Feature Pyramid Network with Guided Anchoring
for Logo Detection [52.36825190893928]
我々は,DSFP-GAを用いた識別的セマンティック特徴ピラミッドネットワークという新しい手法を提案する。
我々のアプローチは主に差別的セマンティック特徴ピラミッド(DSFP)とガイドアンコリング(GA)から構成される。
論文 参考訳(メタデータ) (2021-08-31T11:59:00Z) - FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via
Multi-Scale Feature Decoupling Network [55.49022825759331]
高度な食品ロゴ検出アルゴリズムを開発するには、大規模な食品ロゴデータセットが緊急に必要である。
FoodLogoDet-1500は、1500のカテゴリ、約10万の画像、約15万個の手動で注釈付けされた食品ロゴオブジェクトを備えた、新しい大規模一般公開の食品ロゴデータセットである。
食品のロゴを識別する手法として,MFDNet(Multi-scale Feature Decoupling Network)を提案する。
論文 参考訳(メタデータ) (2021-08-10T12:47:04Z) - Famous Companies Use More Letters in Logo:A Large-Scale Analysis of Text
Area in Logo [4.168157981135698]
私たちは、ロゴ画像とそのテキスト領域、テキスト領域とTwitter上のフォロワーの数、およびロゴ画像とフォロワーの数の3つの相関に焦点を当てています。
テキスト領域比と会社のフォロワー数との間には, 弱い正の相関関係がみられた。
論文 参考訳(メタデータ) (2021-04-01T08:19:29Z) - LogoDet-3K: A Large-Scale Image Dataset for Logo Detection [61.296935298332606]
完全アノテーション付き最大のロゴ検出データセットであるLogoDet-3Kを紹介する。
3000のロゴカテゴリー、約20万の注釈付きロゴオブジェクト、158,652の画像がある。
大規模なロゴ検出のための最先端のYOLOv3フレームワークにFocal LosとCIoU Losを組み込んだ強力なベースライン手法であるLogo-Yoloを提案する。
論文 参考訳(メタデータ) (2020-08-12T14:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。