論文の概要: Jewelry Recognition via Encoder-Decoder Models
- arxiv url: http://arxiv.org/abs/2401.08003v1
- Date: Mon, 15 Jan 2024 23:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:35:33.992773
- Title: Jewelry Recognition via Encoder-Decoder Models
- Title(参考訳): エンコーダデコーダモデルによるジュエリー認識
- Authors: Jos\'e M. Alcalde-Llergo, Enrique Yeguas-Bol\'ivar, Andrea Zingoni and
Alejandro Fuerte-Jurado
- Abstract要約: コンピュータビジョン技術と画像キャプションを用いたジュエリー認識手法を提案する。
提案手法は,宝石電子商取引などの様々な応用に応用できる可能性がある。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jewelry recognition is a complex task due to the different styles and designs
of accessories. Precise descriptions of the various accessories is something
that today can only be achieved by experts in the field of jewelry. In this
work, we propose an approach for jewelry recognition using computer vision
techniques and image captioning, trying to simulate this expert human behavior
of analyzing accessories. The proposed methodology consist on using different
image captioning models to detect the jewels from an image and generate a
natural language description of the accessory. Then, this description is also
utilized to classify the accessories at different levels of detail. The
generated caption includes details such as the type of jewel, color, material,
and design. To demonstrate the effectiveness of the proposed method in
accurately recognizing different types of jewels, a dataset consisting of
images of accessories belonging to jewelry stores in C\'ordoba (Spain) has been
created. After testing the different image captioning architectures designed,
the final model achieves a captioning accuracy of 95\%. The proposed
methodology has the potential to be used in various applications such as
jewelry e-commerce, inventory management or automatic jewels recognition to
analyze people's tastes and social status.
- Abstract(参考訳): ジュエリー認識は、アクセサリーのスタイルやデザインが異なるため、複雑なタスクである。
様々なアクセサリーの正確な記述は、今日のジュエリー分野の専門家によってのみ達成できるものである。
本研究では,コンピュータビジョン技術と画像キャプションを用いたジュエリー認識手法を提案する。
提案手法は,異なる画像キャプションモデルを用いて画像から宝石を検出し,アクセサリの自然言語記述を生成する。
この記述は、アクセサリーを様々な詳細レベルで分類するのにも使われる。
生成されたキャプションには宝石の種類、色、素材、デザインなどの詳細が含まれている。
異なる種類の宝石を正確に認識する手法の有効性を示すため, C'ordoba (Spain) のジュエリーストアに属するアクセサリーの画像からなるデータセットを作成した。
設計した異なる画像キャプションアーキテクチャをテストすると、最終モデルは95\%のキャプション精度を達成する。
提案手法は, 宝石電子商取引, 在庫管理, 自動宝石認識など, 人々の嗜好や社会的地位を分析する様々な用途に応用できる可能性がある。
関連論文リスト
- Pixels to Prose: Understanding the art of Image Captioning [1.9635669040319872]
画像キャプションにより、機械は視覚的コンテンツを解釈し、記述的なテキストを生成することができる。
レビューでは、画像キャプションモデルの進化を最新の最先端ソリューションに遡る。
医療領域における画像キャプションの適用についても検討した。
論文 参考訳(メタデータ) (2024-08-28T11:21:23Z) - Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - Content-based jewellery item retrieval using the local region-based
histograms [5.807679246334387]
本稿では,HSV色空間における局所的領域に基づくヒストグラムを用いたコンテンツベースのジュエリーアイテム検索手法を提案する。
本手法では, 5つの局所領域を用いて, 検索画像から特定の特徴を抽出する。
提案手法は,利用可能なジュエリーアイテム検索データセット,すなわち ringFIR および Fashion Product Images データセットで検証される。
論文 参考訳(メタデータ) (2023-05-12T15:06:17Z) - Few-Shot Object Detection by Knowledge Distillation Using
Bag-of-Visual-Words Representations [58.48995335728938]
対象検出器の学習を導くための新しい知識蒸留フレームワークを設計する。
まず,視覚単語の代表的な袋を学習するための単語の位置認識モデルを提案する。
次に、2つの異なる特徴空間において、画像が一貫したBoVW表現を持つべきであるという事実に基づいて知識蒸留を行う。
論文 参考訳(メタデータ) (2022-07-25T10:40:40Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Fashion Captioning: Towards Generating Accurate Descriptions with
Semantic Rewards [41.04264950157818]
本研究の目的は、正確かつ表現力のあるファッションキャプションのための新しい学習フレームワークを開発することである。
まず属性を識別し,属性レベルの意味的報酬(ALS)と文レベルの意味的報酬(SLS)をメトリクスとして導入し,テキスト記述の質を向上させる。
論文 参考訳(メタデータ) (2020-08-06T14:52:13Z) - Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition [61.54648991466747]
映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。
航空シーン認識のための音声情報を活用する利点を示す。
論文 参考訳(メタデータ) (2020-05-18T04:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。