論文の概要: RL-LOGO: Deep Reinforcement Learning Localization for Logo Recognition
- arxiv url: http://arxiv.org/abs/2312.16792v1
- Date: Thu, 28 Dec 2023 02:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 17:44:37.108346
- Title: RL-LOGO: Deep Reinforcement Learning Localization for Logo Recognition
- Title(参考訳): RL-LOGO:ローゴ認識のための深層強化学習ローカライゼーション
- Authors: Masato Fujitake
- Abstract要約: 本稿では,強化学習に基づくローカライゼーション手法を取り入れた新しいロゴ画像認識手法を提案する。
位置座標にアノテーションがないため、画像中のロゴの位置を訓練して推測することは不可能である。
提案手法は,実世界のアプリケーションにおいて,ロゴ認識への有望なアプローチであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel logo image recognition approach incorporating a
localization technique based on reinforcement learning. Logo recognition is an
image classification task identifying a brand in an image. As the size and
position of a logo vary widely from image to image, it is necessary to
determine its position for accurate recognition. However, because there is no
annotation for the position coordinates, it is impossible to train and infer
the location of the logo in the image. Therefore, we propose a deep
reinforcement learning localization method for logo recognition (RL-LOGO). It
utilizes deep reinforcement learning to identify a logo region in images
without annotations of the positions, thereby improving classification
accuracy. We demonstrated a significant improvement in accuracy compared with
existing methods in several published benchmarks. Specifically, we achieved an
18-point accuracy improvement over competitive methods on the complex dataset
Logo-2K+. This demonstrates that the proposed method is a promising approach to
logo recognition in real-world applications.
- Abstract(参考訳): 本稿では,強化学習に基づくローカライゼーション手法を取り入れた新しいロゴ画像認識手法を提案する。
ロゴ認識は、画像内のブランドを識別する画像分類タスクである。
ロゴのサイズや位置は画像によって大きく異なるため、正確な認識のためにその位置を決定する必要がある。
しかし、位置座標に注釈がないため、画像中のロゴの位置を訓練して推測することは不可能である。
そこで,ロゴ認識(rl-logo)のための深層強化学習ローカライズ手法を提案する。
深層強化学習を利用して、画像中のロゴ領域を位置のアノテーションなしで識別し、分類精度を向上させる。
いくつかのベンチマークで既存の手法と比較して精度が大幅に向上した。
具体的には,複雑なデータセットLogo-2K+上での競合手法よりも18ポイントの精度向上を実現した。
提案手法は,実世界のアプリケーションにおいて,ロゴ認識への有望なアプローチであることを示す。
関連論文リスト
- LogoSticker: Inserting Logos into Diffusion Models for Customized Generation [73.59571559978278]
テキスト・ツー・イメージ・モデルにロゴを挿入する作業を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:54:49Z) - A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Image-Text Pre-Training for Logo Recognition [0.27195102129094995]
マッチングモデルの性能向上のための2つの新しいコントリビューションを提案する。
微調整済みのImageNet事前学習モデルの標準パラダイムは、マッチング問題を効果的に解決するために必要なテキスト感度を見つけるのに失敗する。
OpenLogoDet3K47で微調整された場合、イメージテキストデータ上で事前トレーニングされた同じビジョンバックボーンが、980.6%のリコール@1.99ドルを達成した。
論文 参考訳(メタデータ) (2023-09-18T23:18:02Z) - A Cross-direction Task Decoupling Network for Small Logo Detection [28.505952002735334]
我々は,小さなロゴ検出のためのクロスダイレクトタスクデカップリングネットワーク(CTDNet)を創造的に提案する。
4つのロゴデータセットの総合的な実験により,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2023-05-04T02:23:34Z) - Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred
Thousand-Scale One-Shot Logo Identification [2.243832625209014]
オープン・セットのワンショット・セッティングにおいて,ビジネスブランドのロゴを自然シーンで識別する問題について検討する。
ロゴに現れるテキストをエンコードする新しい多視点テキスト視覚符号化フレームワークを提案する。
提案手法は, 自然シーンの作業において, 作付ロゴ識別, 作付ロゴ識別, エンド・ツー・エンドのロゴ識別を行う。
論文 参考訳(メタデータ) (2022-11-23T12:59:41Z) - Deep Learning for Logo Detection: A Survey [59.278443852492465]
本稿では, 深層学習技術のロゴ検出への応用について概説する。
既存のロゴ検出戦略と学習戦略の長所と短所を詳細に分析する。
知的輸送やブランド監視から著作権や商標の遵守に至るまで,さまざまな分野におけるロゴ検出の応用を要約する。
論文 参考訳(メタデータ) (2022-10-10T02:07:41Z) - Multi-Label Logo Recognition and Retrieval based on Weighted Fusion of
Neural Features [6.6144185930393435]
ロゴ画像の多ラベル分類と類似性検索のためのシステムを提案する。
この方法は、その形状、色、ビジネスセクター、意味論、一般的な特徴に基づいて、最も類似したロゴを得ることを可能にする。
提案手法はEUTMデータセットを用いて評価される。
論文 参考訳(メタデータ) (2022-05-11T11:40:40Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Discriminative Semantic Feature Pyramid Network with Guided Anchoring
for Logo Detection [52.36825190893928]
我々は,DSFP-GAを用いた識別的セマンティック特徴ピラミッドネットワークという新しい手法を提案する。
我々のアプローチは主に差別的セマンティック特徴ピラミッド(DSFP)とガイドアンコリング(GA)から構成される。
論文 参考訳(メタデータ) (2021-08-31T11:59:00Z) - Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。
複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。
IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文 参考訳(メタデータ) (2020-07-23T06:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。