論文の概要: FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via
Multi-Scale Feature Decoupling Network
- arxiv url: http://arxiv.org/abs/2108.04644v1
- Date: Tue, 10 Aug 2021 12:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 18:10:14.618605
- Title: FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via
Multi-Scale Feature Decoupling Network
- Title(参考訳): FoodLogoDet-1500:マルチスケール特徴デカップリングネットワークによる大規模食品ロゴ検出用データセット
- Authors: Qiang Hou, Weiqing Min, Jing Wang, Sujuan Hou, Yuanjie Zheng, Shuqiang
Jiang
- Abstract要約: 高度な食品ロゴ検出アルゴリズムを開発するには、大規模な食品ロゴデータセットが緊急に必要である。
FoodLogoDet-1500は、1500のカテゴリ、約10万の画像、約15万個の手動で注釈付けされた食品ロゴオブジェクトを備えた、新しい大規模一般公開の食品ロゴデータセットである。
食品のロゴを識別する手法として,MFDNet(Multi-scale Feature Decoupling Network)を提案する。
- 参考スコア(独自算出の注目度): 55.49022825759331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Food logo detection plays an important role in the multimedia for its wide
real-world applications, such as food recommendation of the self-service shop
and infringement detection on e-commerce platforms. A large-scale food logo
dataset is urgently needed for developing advanced food logo detection
algorithms. However, there are no available food logo datasets with food brand
information. To support efforts towards food logo detection, we introduce the
dataset FoodLogoDet-1500, a new large-scale publicly available food logo
dataset, which has 1,500 categories, about 100,000 images and about 150,000
manually annotated food logo objects. We describe the collection and annotation
process of FoodLogoDet-1500, analyze its scale and diversity, and compare it
with other logo datasets. To the best of our knowledge, FoodLogoDet-1500 is the
first largest publicly available high-quality dataset for food logo detection.
The challenge of food logo detection lies in the large-scale categories and
similarities between food logo categories. For that, we propose a novel food
logo detection method Multi-scale Feature Decoupling Network (MFDNet), which
decouples classification and regression into two branches and focuses on the
classification branch to solve the problem of distinguishing multiple food logo
categories. Specifically, we introduce the feature offset module, which
utilizes the deformation-learning for optimal classification offset and can
effectively obtain the most representative features of classification in
detection. In addition, we adopt a balanced feature pyramid in MFDNet, which
pays attention to global information, balances the multi-scale feature maps,
and enhances feature extraction capability. Comprehensive experiments on
FoodLogoDet-1500 and other two benchmark logo datasets demonstrate the
effectiveness of the proposed method. The FoodLogoDet-1500 can be found at this
https URL.
- Abstract(参考訳): 食品のロゴ検出は、セルフサービスショップの食品推奨やeコマースプラットフォームの侵害検出など、幅広い現実のアプリケーションにおいてマルチメディアにおいて重要な役割を果たす。
高度な食品ロゴ検出アルゴリズムの開発には,大規模食品ロゴデータセットが緊急に必要である。
しかし、食品ブランド情報を含む食品ロゴデータセットは提供されていない。
食品ロゴ検出に向けた取り組みを支援するために,1500のカテゴリ,約10万枚の画像,約15万個の手作業でアノテーション付き食品ロゴオブジェクトを備えた,新しい大規模食品ロゴデータセットであるfoodlogodet-1500を紹介する。
本稿では,foodlogodet-1500の収集とアノテーションのプロセスを説明し,その規模と多様性を分析し,他のロゴデータセットと比較する。
われわれの知る限りでは、FoodLogoDet-1500は、食品のロゴ検出のための、初めて公開された高品質なデータセットだ。
食品ロゴ検出の課題は、食品ロゴカテゴリ間の大規模なカテゴリと類似性にある。
そこで本研究では,食品ロゴの分類と回帰を2つの分枝に分離し,その分枝に着目し,複数の食品ロゴ分類を区別する新しい食品ロゴ検出手法(mfdnet)を提案する。
具体的には,変形学習を最適分類オフセットに活用し,検出における分類の最も代表的な特徴を効果的に得ることのできる特徴オフセットモジュールを提案する。
さらに,グローバル情報に注目し,マルチスケール機能マップのバランスをとり,機能抽出能力を高めるmfdnetのバランス機能ピラミッドを採用した。
FoodLogoDet-1500および他の2つのベンチマークロゴデータセットに関する総合実験により,提案手法の有効性が示された。
FoodLogoDet-1500は、このhttpsURLで見ることができる。
関連論文リスト
- Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred
Thousand-Scale One-Shot Logo Identification [2.243832625209014]
オープン・セットのワンショット・セッティングにおいて,ビジネスブランドのロゴを自然シーンで識別する問題について検討する。
ロゴに現れるテキストをエンコードする新しい多視点テキスト視覚符号化フレームワークを提案する。
提案手法は, 自然シーンの作業において, 作付ロゴ識別, 作付ロゴ識別, エンド・ツー・エンドのロゴ識別を行う。
論文 参考訳(メタデータ) (2022-11-23T12:59:41Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Visual Aware Hierarchy Based Food Recognition [10.194167945992938]
本稿では,コンボリューショナルニューラルネットワーク(CNN)をバックボーンアーキテクチャとして用いた2段階の食品認識システムを提案する。
食品ローカライゼーションのステップは、食品領域を識別するFaster R-CNN法の実装に基づいている。
食品分類工程では、視覚的に類似した食品カテゴリーを自動的にまとめて階層構造を生成することができる。
論文 参考訳(メタデータ) (2020-12-06T20:25:31Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z) - LogoDet-3K: A Large-Scale Image Dataset for Logo Detection [61.296935298332606]
完全アノテーション付き最大のロゴ検出データセットであるLogoDet-3Kを紹介する。
3000のロゴカテゴリー、約20万の注釈付きロゴオブジェクト、158,652の画像がある。
大規模なロゴ検出のための最先端のYOLOv3フレームワークにFocal LosとCIoU Losを組み込んだ強力なベースライン手法であるLogo-Yoloを提案する。
論文 参考訳(メタデータ) (2020-08-12T14:57:53Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。