論文の概要: Visual Search at Alibaba
- arxiv url: http://arxiv.org/abs/2102.04674v1
- Date: Tue, 9 Feb 2021 06:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:02:50.664686
- Title: Visual Search at Alibaba
- Title(参考訳): Alibabaのビジュアル検索
- Authors: Yanhao Zhang, Pan Pan, Yun Zheng, Kang Zhao, Yingya Zhang, Xiaofeng
Ren, Rong Jin
- Abstract要約: Alibabaの大規模な画像収集と最先端のディープラーニング技術を活用して、大規模にビジュアル検索を行います。
モデルと探索に基づく融合手法を導入し,カテゴリを効果的に予測する。
ユーザクリック動作のマイニングによる共同検出と特徴学習のための深層CNNモデルを提案する。
- 参考スコア(独自算出の注目度): 38.106392977338146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the large scale visual search algorithm and system
infrastructure at Alibaba. The following challenges are discussed under the
E-commercial circumstance at Alibaba (a) how to handle heterogeneous image data
and bridge the gap between real-shot images from user query and the online
images. (b) how to deal with large scale indexing for massive updating data.
(c) how to train deep models for effective feature representation without huge
human annotations. (d) how to improve the user engagement by considering the
quality of the content. We take advantage of large image collection of Alibaba
and state-of-the-art deep learning techniques to perform visual search at
scale. We present solutions and implementation details to overcome those
problems and also share our learnings from building such a large scale
commercial visual search engine. Specifically, model and search-based fusion
approach is introduced to effectively predict categories. Also, we propose a
deep CNN model for joint detection and feature learning by mining user click
behavior. The binary index engine is designed to scale up indexing without
compromising recall and precision. Finally, we apply all the stages into an
end-to-end system architecture, which can simultaneously achieve highly
efficient and scalable performance adapting to real-shot images. Extensive
experiments demonstrate the advancement of each module in our system. We hope
visual search at Alibaba becomes more widely incorporated into today's
commercial applications.
- Abstract(参考訳): 本稿では,Alibabaの大規模ビジュアル検索アルゴリズムとシステムインフラについて紹介する。
以下の課題は、Alibaba(a)のEコマース状況下で、異種画像データを処理し、ユーザークエリから実写画像とオンライン画像の間のギャップを埋める方法について議論されます。
(b)大規模な更新データに対する大規模インデックス処理の扱い方。
(c) 巨大なヒューマンアノテーションなしで効果的な機能表現のための深層モデルを訓練する方法。
(d)コンテンツの品質を考慮してユーザのエンゲージメントを改善する方法。
Alibabaの大規模な画像収集と最先端のディープラーニング技術を活用して、大規模にビジュアル検索を行います。
我々は,このような課題を克服するためのソリューションと実装の詳細を提示するとともに,このような大規模商用ビジュアル検索エンジンの構築から得た知見を共有する。
具体的には、モデルと検索に基づく融合アプローチを導入し、カテゴリを効果的に予測します。
また,ユーザクリック動作のマイニングによる共同検出と特徴学習のための深層CNNモデルを提案する。
バイナリインデックスエンジンは、リコールと精度を損なうことなくインデックスをスケールアップするように設計されている。
最後に、すべてのステージをエンドツーエンドのシステムアーキテクチャに適用し、リアルタイム画像に適応した高効率でスケーラブルなパフォーマンスを同時に達成する。
広範な実験は、システム内の各モジュールの進歩を示しています。
Alibabaのビジュアル検索が、今日の商用アプリケーションに広く取り入れられることを期待しています。
関連論文リスト
- Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression [0.6345523830122168]
従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。
我々は、AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮で融合させることにより、この問題に対処するフレームワークを提案した。
我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。
論文 参考訳(メタデータ) (2024-04-16T02:29:00Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [12.14013374452918]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-09-26T15:13:09Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Toward an ImageNet Library of Functions for Global Optimization
Benchmarking [0.0]
本研究では,認識問題を画像認識問題に変換することを提案する。
教師付きマルチクラス画像認識問題として対処し、基本的ニューラルネットワークモデルを適用して解決する。
この明らかに成功した学習は、自動特徴抽出とBBO問題の局所構造推論への別のステップである。
論文 参考訳(メタデータ) (2022-06-27T21:05:00Z) - Approximate Nearest Neighbor Search under Neural Similarity Metric for
Large-Scale Recommendation [20.42993976179691]
本稿では,任意のマッチング関数にANN探索を拡張する新しい手法を提案する。
我々の主な考えは、すべての項目から構築された類似性グラフに一致する関数で、欲張りのウォークを実行することである。
提案手法は,Taobaoのディスプレイ広告プラットフォームに完全に展開されており,広告収入の大幅な増加をもたらす。
論文 参考訳(メタデータ) (2022-02-14T07:55:57Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Virtual ID Discovery from E-commerce Media at Alibaba: Exploiting
Richness of User Click Behavior for Visual Search Relevance [40.98749837102654]
我々は,Alibabaにおける視覚的検索関連性を改善するために,ユーザクリック行動から仮想IDを発見することを提案する。
完全にクリックデータ駆動のアプローチとして、人間のアノテーションを使わずにディープネットワークをトレーニングするための様々な種類のクリックデータを収集します。
当社のネットワークは、よりリッチな監視をエンコードし、カテゴリや機能の観点から実写画像を識別する上で、より効果的です。
論文 参考訳(メタデータ) (2021-02-09T06:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。