論文の概要: Embracing Structure in Data for Billion-Scale Semantic Product Search
- arxiv url: http://arxiv.org/abs/2110.06125v1
- Date: Tue, 12 Oct 2021 16:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 15:36:09.661384
- Title: Embracing Structure in Data for Billion-Scale Semantic Product Search
- Title(参考訳): 10億規模のセマンティック製品検索のためのデータ構造の導入
- Authors: Vihan Lakshman, Choon Hui Teo, Xiaowen Chu, Priyanka Nigam, Abhinandan
Patni, Pooja Maknikar, SVN Vishwanathan
- Abstract要約: 我々は、数十億の規模でダイアドニューラル埋め込みモデルを訓練し、展開するための原則的アプローチを提案する。
実世界のデータセットの自然な構造を活用することで、両方の課題に効率的に対処できることが示される。
- 参考スコア(独自算出の注目度): 14.962039276966319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present principled approaches to train and deploy dyadic neural embedding
models at the billion scale, focusing our investigation on the application of
semantic product search. When training a dyadic model, one seeks to embed two
different types of entities (e.g., queries and documents or users and movies)
in a common vector space such that pairs with high relevance are positioned
nearby. During inference, given an embedding of one type (e.g., a query or a
user), one seeks to retrieve the entities of the other type (e.g., documents or
movies, respectively) that are highly relevant. In this work, we show that
exploiting the natural structure of real-world datasets helps address both
challenges efficiently. Specifically, we model dyadic data as a bipartite graph
with edges between pairs with positive associations. We then propose to
partition this network into semantically coherent clusters and thus reduce our
search space by focusing on a small subset of these partitions for a given
input. During training, this technique enables us to efficiently mine hard
negative examples while, at inference, we can quickly find the nearest
neighbors for a given embedding. We provide offline experimental results that
demonstrate the efficacy of our techniques for both training and inference on a
billion-scale Amazon.com product search dataset.
- Abstract(参考訳): 我々は,10億の規模でDyadic Neural Embedding Modelをトレーニングし,デプロイするための原則的アプローチを提案し,セマンティックプロダクトサーチの適用について検討する。
ダイアドモデルのトレーニングでは、2種類のエンティティ(クエリやドキュメント、ユーザや映画など)を共通のベクトル空間に埋め込んで、関連性の高いペアが近くに位置するようにしようとする。
推論において、あるタイプ(例えば、クエリやユーザ)の埋め込みが与えられた場合、関係性の高い他のタイプのエンティティ(例えば、ドキュメントや映画)を検索しようとする。
本研究では,実世界のデータセットの自然構造を活用することで,両者の課題を効率的に解決できることを示す。
具体的には、正の相関関係を持つペア間の辺を持つ二部グラフとしてdyadicデータをモデル化する。
次に、このネットワークを意味的に一貫性のあるクラスタに分割し、与えられた入力に対してこれらのパーティションの小さなサブセットに焦点を当てることで、検索スペースを削減することを提案する。
トレーニング中、このテクニックにより、ハードネガティブな例を効率的にマイニングできる一方で、推論では、与えられた埋め込みの最も近い隣接点を素早く見つけることができます。
我々は、10億規模のamazon.com製品検索データセットでトレーニングと推論の両方にこの技術の有効性を示すオフライン実験結果を提供する。
関連論文リスト
- On Training a Neural Network to Explain Binaries [43.27448128029069]
本研究では,バイナリコード理解のタスクにおいて,ディープニューラルネットワークをトレーニングする可能性を検討する。
私たちは、Stack Overflowの1.1Mエントリを含むキャプチャから派生した、独自のデータセットを構築しています。
論文 参考訳(メタデータ) (2024-04-30T15:34:51Z) - The Battleship Approach to the Low Resource Entity Matching Problem [0.0]
本稿では,エンティティマッチング問題に対する新しいアクティブな学習手法を提案する。
我々は、エンティティマッチングのユニークな特性を利用する選択メカニズムに焦点を当てる。
実験により,提案アルゴリズムは,最先端のアクティブ・ラーニング・ソリューションより低リソース・エンティティ・マッチングに優れることを示した。
論文 参考訳(メタデータ) (2023-11-27T10:18:17Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Learning Bidirectional Translation between Descriptions and Actions with
Small Paired Data [5.188295416244741]
本研究では,双方向翻訳のための2段階学習手法を提案する。
我々は、大量の非ペアデータによる記述と動作のために、繰り返しオートエンコーダ(RAE)を訓練する。
そして、小さなペアデータを用いてモデル全体を微調整し、その中間表現を結合する。
論文 参考訳(メタデータ) (2022-03-08T17:39:16Z) - Approximate Nearest Neighbor Search under Neural Similarity Metric for
Large-Scale Recommendation [20.42993976179691]
本稿では,任意のマッチング関数にANN探索を拡張する新しい手法を提案する。
我々の主な考えは、すべての項目から構築された類似性グラフに一致する関数で、欲張りのウォークを実行することである。
提案手法は,Taobaoのディスプレイ広告プラットフォームに完全に展開されており,広告収入の大幅な増加をもたらす。
論文 参考訳(メタデータ) (2022-02-14T07:55:57Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Adversarial Examples for $k$-Nearest Neighbor Classifiers Based on
Higher-Order Voronoi Diagrams [69.4411417775822]
逆例は機械学習モデルにおいて広く研究されている現象である。
そこで本研究では,$k$-nearest 近傍分類の逆ロバスト性を評価するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:49:10Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。