論文の概要: Virtual ID Discovery from E-commerce Media at Alibaba: Exploiting
Richness of User Click Behavior for Visual Search Relevance
- arxiv url: http://arxiv.org/abs/2102.04667v1
- Date: Tue, 9 Feb 2021 06:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:03:13.674940
- Title: Virtual ID Discovery from E-commerce Media at Alibaba: Exploiting
Richness of User Click Behavior for Visual Search Relevance
- Title(参考訳): alibabaのeコマースメディアによるバーチャルid発見: ビジュアル検索にユーザークリック行動の豊かさを活用
- Authors: Yanhao Zhang, Pan Pan, Yun Zheng, Kang Zhao, Jianmin Wu, Yinghui Xu,
Rong Jin
- Abstract要約: 我々は,Alibabaにおける視覚的検索関連性を改善するために,ユーザクリック行動から仮想IDを発見することを提案する。
完全にクリックデータ駆動のアプローチとして、人間のアノテーションを使わずにディープネットワークをトレーニングするための様々な種類のクリックデータを収集します。
当社のネットワークは、よりリッチな監視をエンコードし、カテゴリや機能の観点から実写画像を識別する上で、より効果的です。
- 参考スコア(独自算出の注目度): 40.98749837102654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual search plays an essential role for E-commerce. To meet the search
demands of users and promote shopping experience at Alibaba, visual search
relevance of real-shot images is becoming the bottleneck. Traditional visual
search paradigm is usually based upon supervised learning with labeled data.
However, large-scale categorical labels are required with expensive human
annotations, which limits its applicability and also usually fails in
distinguishing the real-shot images. In this paper, we propose to discover
Virtual ID from user click behavior to improve visual search relevance at
Alibaba. As a totally click-data driven approach, we collect various types of
click data for training deep networks without any human annotations at all. In
particular, Virtual ID are learned as classification supervision with co-click
embedding, which explores image relationship from user co-click behaviors to
guide category prediction and feature learning. Concretely, we deploy Virtual
ID Category Network by integrating first-clicks and switch-clicks as
regularizer. Incorporating triplets and list constraints, Virtual ID Feature
Network is trained in a joint classification and ranking manner. Benefiting
from exploration of user click data, our networks are more effective to encode
richer supervision and better distinguish real-shot images in terms of category
and feature. To validate our method for visual search relevance, we conduct an
extensive set of offline and online experiments on the collected real-shot
images. We consistently achieve better experimental results across all
components, compared with alternative and state-of-the-art methods.
- Abstract(参考訳): ビジュアル検索は、Eコマースに不可欠な役割を担います。
Alibabaにおけるユーザーの検索要求を満たし、ショッピング体験を促進するために、リアルショット画像のビジュアル検索関連性がボトルネックとなっている。
従来のビジュアル検索パラダイムは通常、ラベル付きデータによる教師付き学習に基づいている。
しかし、大規模な分類ラベルは高価な人間のアノテーションを必要とするため、適用性が制限され、通常は実写画像の識別に失敗する。
本稿では,ユーザクリック行動から仮想IDを発見し,Alibabaの視覚検索関連性を改善することを提案する。
完全にクリックデータ駆動のアプローチとして、人間のアノテーションなしでディープネットワークをトレーニングするための様々な種類のクリックデータを収集します。
特に、仮想IDは、コクリック埋め込みによる分類監督として学習され、ユーザーコクリック行動からカテゴリ予測と機能学習を導くためのイメージ関係を探索します。
具体的には,ファーストクリックとスイッチクリックをレギュラライザとして統合することにより,仮想idカテゴリネットワークを展開する。
トリプレットとリスト制約を組み込んだ仮想id特徴ネットワークは、分類とランキングの併用方法で訓練される。
ユーザのクリックデータを調べることで、ネットワークはよりリッチな監視をエンコードし、カテゴリや機能の観点から実際の画像をよりよく識別する。
本手法の有効性を検証するために,収集した実写画像に対して,オフラインおよびオンライン実験を広範囲に実施する。
代替手法や最先端手法と比較して、すべてのコンポーネントで実験結果が一貫して得られます。
関連論文リスト
- Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Extending CLIP for Category-to-image Retrieval in E-commerce [36.386210802938656]
Eコマースは、実際はほとんど活用されていないリッチなマルチモーダルデータを提供する。
実際には、テキストと与えられたカテゴリの視覚的表現の間には、しばしばミスマッチがある。
電子商取引におけるカテゴリ・ツー・イメージ検索の課題を紹介し,その課題のモデルであるCLIP-ITAを提案する。
論文 参考訳(メタデータ) (2021-12-21T15:33:23Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Connecting Images through Time and Sources: Introducing Low-data,
Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。
Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文 参考訳(メタデータ) (2021-03-19T10:54:51Z) - Visual Search at Alibaba [38.106392977338146]
Alibabaの大規模な画像収集と最先端のディープラーニング技術を活用して、大規模にビジュアル検索を行います。
モデルと探索に基づく融合手法を導入し,カテゴリを効果的に予測する。
ユーザクリック動作のマイニングによる共同検出と特徴学習のための深層CNNモデルを提案する。
論文 参考訳(メタデータ) (2021-02-09T06:46:50Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。