Fugu-MT 論文翻訳(概要): Virtual ID Discovery from E-commerce Media at Alibaba: Exploiting Richness of User Click Behavior for Visual Search Relevance

論文の概要: Virtual ID Discovery from E-commerce Media at Alibaba: Exploiting Richness of User Click Behavior for Visual Search Relevance

arxiv url: http://arxiv.org/abs/2102.04667v1
Date: Tue, 9 Feb 2021 06:31:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-10 15:03:13.674940
Title: Virtual ID Discovery from E-commerce Media at Alibaba: Exploiting Richness of User Click Behavior for Visual Search Relevance
Title（参考訳）: alibabaのeコマースメディアによるバーチャルid発見: ビジュアル検索にユーザークリック行動の豊かさを活用
Authors: Yanhao Zhang, Pan Pan, Yun Zheng, Kang Zhao, Jianmin Wu, Yinghui Xu, Rong Jin
Abstract要約: 我々は,Alibabaにおける視覚的検索関連性を改善するために,ユーザクリック行動から仮想IDを発見することを提案する。完全にクリックデータ駆動のアプローチとして、人間のアノテーションを使わずにディープネットワークをトレーニングするための様々な種類のクリックデータを収集します。当社のネットワークは、よりリッチな監視をエンコードし、カテゴリや機能の観点から実写画像を識別する上で、より効果的です。
参考スコア（独自算出の注目度）: 40.98749837102654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual search plays an essential role for E-commerce. To meet the search demands of users and promote shopping experience at Alibaba, visual search relevance of real-shot images is becoming the bottleneck. Traditional visual search paradigm is usually based upon supervised learning with labeled data. However, large-scale categorical labels are required with expensive human annotations, which limits its applicability and also usually fails in distinguishing the real-shot images. In this paper, we propose to discover Virtual ID from user click behavior to improve visual search relevance at Alibaba. As a totally click-data driven approach, we collect various types of click data for training deep networks without any human annotations at all. In particular, Virtual ID are learned as classification supervision with co-click embedding, which explores image relationship from user co-click behaviors to guide category prediction and feature learning. Concretely, we deploy Virtual ID Category Network by integrating first-clicks and switch-clicks as regularizer. Incorporating triplets and list constraints, Virtual ID Feature Network is trained in a joint classification and ranking manner. Benefiting from exploration of user click data, our networks are more effective to encode richer supervision and better distinguish real-shot images in terms of category and feature. To validate our method for visual search relevance, we conduct an extensive set of offline and online experiments on the collected real-shot images. We consistently achieve better experimental results across all components, compared with alternative and state-of-the-art methods.
Abstract（参考訳）: ビジュアル検索は、Eコマースに不可欠な役割を担います。 Alibabaにおけるユーザーの検索要求を満たし、ショッピング体験を促進するために、リアルショット画像のビジュアル検索関連性がボトルネックとなっている。従来のビジュアル検索パラダイムは通常、ラベル付きデータによる教師付き学習に基づいている。しかし、大規模な分類ラベルは高価な人間のアノテーションを必要とするため、適用性が制限され、通常は実写画像の識別に失敗する。本稿では,ユーザクリック行動から仮想IDを発見し,Alibabaの視覚検索関連性を改善することを提案する。完全にクリックデータ駆動のアプローチとして、人間のアノテーションなしでディープネットワークをトレーニングするための様々な種類のクリックデータを収集します。特に、仮想IDは、コクリック埋め込みによる分類監督として学習され、ユーザーコクリック行動からカテゴリ予測と機能学習を導くためのイメージ関係を探索します。具体的には,ファーストクリックとスイッチクリックをレギュラライザとして統合することにより,仮想idカテゴリネットワークを展開する。トリプレットとリスト制約を組み込んだ仮想id特徴ネットワークは、分類とランキングの併用方法で訓練される。ユーザのクリックデータを調べることで、ネットワークはよりリッチな監視をエンコードし、カテゴリや機能の観点から実際の画像をよりよく識別する。本手法の有効性を検証するために,収集した実写画像に対して,オフラインおよびオンライン実験を広範囲に実施する。代替手法や最先端手法と比較して、すべてのコンポーネントで実験結果が一貫して得られます。

関連論文リスト

Grounded GUI Understanding for Vision Based Spatial Intelligent Agent: Exemplified by Virtual Reality Apps [41.601579396549404]
仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。
論文参考訳（メタデータ） (2024-09-17T00:58:00Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-16T04:59:50Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文参考訳（メタデータ） (2021-04-30T05:46:02Z)
Cloth Interactive Transformer for Virtual Try-On [106.21605249649957]
本稿では,仮想試行作業のための2段階のインタラクティブトランス (CIT) 手法を提案する。第1段階では, CITマッチングブロックを設計し, 着物非依存者情報と着物内布情報との長距離相関関係を正確に把握することを目的とした。第2段階では,人物表現のグローバルな相互相互依存関係を確立するためのCIT推論ブロック,整形衣料品,およびそれに対応する整形布マスクを作成した。
論文参考訳（メタデータ） (2021-04-12T14:45:32Z)
Connecting Images through Time and Sources: Introducing Low-data, Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。 Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文参考訳（メタデータ） (2021-03-19T10:54:51Z)
Visual Search at Alibaba [38.106392977338146]
Alibabaの大規模な画像収集と最先端のディープラーニング技術を活用して、大規模にビジュアル検索を行います。モデルと探索に基づく融合手法を導入し,カテゴリを効果的に予測する。ユーザクリック動作のマイニングによる共同検出と特徴学習のための深層CNNモデルを提案する。
論文参考訳（メタデータ） (2021-02-09T06:46:50Z)
ConsNet: Learning Consistency Graph for Zero-Shot Human-Object Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文参考訳（メタデータ） (2020-08-14T09:11:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。