論文の概要: Large Scale Long-tailed Product Recognition System at Alibaba
- arxiv url: http://arxiv.org/abs/2102.04652v1
- Date: Tue, 9 Feb 2021 05:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:03:37.102665
- Title: Large Scale Long-tailed Product Recognition System at Alibaba
- Title(参考訳): Alibabaにおける大規模長期製品認識システム
- Authors: Xiangzeng Zhou and Pan Pan and Yun Zheng and Yinghui Xu and Rong Jin
- Abstract要約: 本稿では,新しい側面情報に基づく大規模視覚認識協調学習システム(SICoT)について述べる。
提案する協調学習システムでは,まず,雑音側情報に埋め込まれたセマンティックな埋め込みを構築することを目的としたバイリニアワードアテンションモジュールを導入する。
視覚的特徴とセマンティックな埋め込み協調学習スキームは、豊富なトレーニングデータを持つクラスから少ないトレーニングデータを持つクラスへ知識を伝達するように設計されている。
- 参考スコア(独自算出の注目度): 41.46246456963761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A practical large scale product recognition system suffers from the
phenomenon of long-tailed imbalanced training data under the E-commercial
circumstance at Alibaba. Besides product images at Alibaba, plenty of image
related side information (e.g. title, tags) reveal rich semantic information
about images. Prior works mainly focus on addressing the long tail problem in
visual perspective only, but lack of consideration of leveraging the side
information. In this paper, we present a novel side information based large
scale visual recognition co-training~(SICoT) system to deal with the long tail
problem by leveraging the image related side information. In the proposed
co-training system, we firstly introduce a bilinear word attention module
aiming to construct a semantic embedding over the noisy side information. A
visual feature and semantic embedding co-training scheme is then designed to
transfer knowledge from classes with abundant training data (head classes) to
classes with few training data (tail classes) in an end-to-end fashion.
Extensive experiments on four challenging large scale datasets, whose numbers
of classes range from one thousand to one million, demonstrate the scalable
effectiveness of the proposed SICoT system in alleviating the long tail
problem. In the visual search platform
Pailitao\footnote{http://www.pailitao.com} at Alibaba, we settle a practical
large scale product recognition application driven by the proposed SICoT
system, and achieve a significant gain of unique visitor~(UV) conversion rate.
- Abstract(参考訳): 現実的な大規模製品認識システムは,AlibabaのE商業状況下での長期不均衡トレーニングデータの現象に悩まされている。
Alibabaの製品画像に加えて、多くの画像関連サイド情報(例)。
title, tags) 画像に関する豊富な意味情報を明らかにする。
先行研究は主に視覚的視点のみにおいて、長い尾の問題に対処することに焦点を当てるが、側面情報を活用することの考慮が欠如している。
本稿では、画像関連側情報を活用することで、長い尾の問題に対処する、新しい側面情報に基づく大規模視覚認識協調訓練システム(SICoT)を提案する。
提案するコトレーニングシステムでは,まず,雑音側情報に意味的埋め込みを構築することを目的とした,バイリニアワードアテンションモジュールを導入する。
視覚的特徴と意味的埋め込みコトレーニングスキームは、豊富なトレーニングデータ(ヘッドクラス)を持つクラスから、エンドツーエンドの方法でトレーニングデータ(テールクラス)が少ないクラスに知識を転送するように設計されている。
クラス数が1000から100万の範囲の4つの挑戦的な大規模データセットに関する広範な実験は、長尾問題を軽減するために提案されたSICoTシステムのスケーラブルな有効性を示す。
Alibabaのビジュアル検索プラットフォームPailitao\footnote{http://www.pailitao.com}では、提案されたSICoTシステムによって駆動される実用的な大規模製品認識アプリケーションを決定し、ユニークビジター〜(UV)変換率の有意な利益を達成します。
関連論文リスト
- Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained
Ship Classification [62.425462136772666]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Efficient Large-Scale Visual Representation Learning And Evaluation [0.13192560874022083]
大規模なeコマースビジョンアプリケーションにおける課題を解説し、視覚表現を効果的に訓練し、評価し、提供する方法を強調する。
いくつかの下流タスクにおける視覚的表現を評価するアブレーション研究について述べる。
大規模なeコマースプラットフォーム上にデプロイされた機械学習システムの実運用におけるオンライン結果を含める。
論文 参考訳(メタデータ) (2023-05-22T18:25:03Z) - Constructing Balance from Imbalance for Long-tailed Image Recognition [50.6210415377178]
多数派(頭)クラスと少数派(尾)クラスの不均衡は、データ駆動のディープニューラルネットワークを著しく歪ませる。
従来の手法では、データ分散、特徴空間、モデル設計の観点からデータ不均衡に対処していた。
ラベル空間を段階的に調整し,ヘッドクラスとテールクラスを分割することで,簡潔なパラダイムを提案する。
提案モデルでは,特徴評価手法も提供し,長期的特徴学習の道を開く。
論文 参考訳(メタデータ) (2022-08-04T10:22:24Z) - Long-tailed Recognition by Learning from Latent Categories [70.6272114218549]
本稿ではLatent Categories based long-tail Recognition (LCReg)法を提案する。
具体的には、頭と尾のクラス間で共有されるクラスに依存しない潜在機能群を学習する。
次に、潜在機能に意味データ拡張を適用することで、トレーニングサンプルの多様性を暗黙的に強化する。
論文 参考訳(メタデータ) (2022-06-02T12:19:51Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Visual Search at Alibaba [38.106392977338146]
Alibabaの大規模な画像収集と最先端のディープラーニング技術を活用して、大規模にビジュアル検索を行います。
モデルと探索に基づく融合手法を導入し,カテゴリを効果的に予測する。
ユーザクリック動作のマイニングによる共同検出と特徴学習のための深層CNNモデルを提案する。
論文 参考訳(メタデータ) (2021-02-09T06:46:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。