論文の概要: SOLAR: Sparse Orthogonal Learned and Random Embeddings
- arxiv url: http://arxiv.org/abs/2008.13225v1
- Date: Sun, 30 Aug 2020 17:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 12:01:48.889837
- Title: SOLAR: Sparse Orthogonal Learned and Random Embeddings
- Title(参考訳): solar: 疎直交学習とランダム埋め込み
- Authors: Tharun Medini, Beidi Chen, Anshumali Shrivastava
- Abstract要約: 我々は,高次元および超スパース埋め込みが,クエリ効率と精度の両面において,高密度な低次元埋め込みよりもはるかに優れていると論じている。
我々は,最大3つの公開データセット上で1.6万冊の書籍を検索し,複数ラベルの分類を行うタスクに対して,500K次元のSOLAR埋め込みを訓練する。
それぞれのタスクに対して,最大10倍の高速さで,各タスクの最先端のベースラインと比較して,精度とリコールの精度が向上する。
- 参考スコア(独自算出の注目度): 45.920844071257754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense embedding models are commonly deployed in commercial search engines,
wherein all the document vectors are pre-computed, and near-neighbor search
(NNS) is performed with the query vector to find relevant documents. However,
the bottleneck of indexing a large number of dense vectors and performing an
NNS hurts the query time and accuracy of these models. In this paper, we argue
that high-dimensional and ultra-sparse embedding is a significantly superior
alternative to dense low-dimensional embedding for both query efficiency and
accuracy. Extreme sparsity eliminates the need for NNS by replacing them with
simple lookups, while its high dimensionality ensures that the embeddings are
informative even when sparse. However, learning extremely high dimensional
embeddings leads to blow up in the model size. To make the training feasible,
we propose a partitioning algorithm that learns such high dimensional
embeddings across multiple GPUs without any communication. This is facilitated
by our novel asymmetric mixture of Sparse, Orthogonal, Learned and Random
(SOLAR) Embeddings. The label vectors are random, sparse, and near-orthogonal
by design, while the query vectors are learned and sparse. We theoretically
prove that our way of one-sided learning is equivalent to learning both query
and label embeddings. With these unique properties, we can successfully train
500K dimensional SOLAR embeddings for the tasks of searching through 1.6M books
and multi-label classification on the three largest public datasets. We achieve
superior precision and recall compared to the respective state-of-the-art
baselines for each of the tasks with up to 10 times faster speed.
- Abstract(参考訳): デンス埋め込みモデルは、一般に商用検索エンジンにデプロイされ、すべてのドキュメントベクトルを事前計算し、クエリベクターで近隣探索(NNS)を行い、関連するドキュメントを見つける。
しかし、大量の高密度ベクトルをインデックス化し、NSを実行するというボトルネックは、これらのモデルのクエリ時間と精度を損なう。
本稿では,高次元および超スパース埋め込みが,クエリ効率と精度の両面において,高密度低次元埋め込みよりもはるかに優れていることを論じる。
極端に疎かさは、単純なルックアップに置き換えることによるNNSの必要性を排除し、その高次元性により、埋め込みがスパースであっても情報的であることが保証される。
しかし、非常に高次元の埋め込みを学ぶとモデルのサイズが爆発する。
トレーニングを実現するために,複数のGPU間の高次元埋め込みを通信なしで学習するパーティショニングアルゴリズムを提案する。
これは、Sparse, Orthogonal, Learned and Random (SOLAR) Embeddingsという非対称な混合物によって促進される。
ラベルベクトルはランダムであり、スパースであり、設計により直交に近いが、クエリベクトルは学習されスパースである。
理論的には、一方的な学習の方法は、クエリとラベルの埋め込みの両方を学ぶことと等価である。
これらのユニークな特性により、1.6万冊の書籍を検索し、3つの大きな公開データセットの多ラベル分類を行うタスクに対して、500K次元のSOLAR埋め込みをトレーニングできる。
それぞれのタスクに対して,最大10倍の高速さで,各タスクの最先端のベースラインと比較して,精度とリコールの精度が向上する。
関連論文リスト
- GleanVec: Accelerating vector search with minimalist nonlinear dimensionality reduction [1.1599570446840546]
クロスモーダル検索(例えば、画像を見つけるためにテキストクエリを使用する)は急速に勢いを増している。
クエリはデータベースベクトルとは異なる統計分布を持つことが多いため、高い精度を達成することは困難である。
本稿では,高次元ベクトル探索を高速化するために,次元削減のための線形非線形手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:14:27Z) - The Impacts of Data, Ordering, and Intrinsic Dimensionality on Recall in Hierarchical Navigable Small Worlds [0.09208007322096533]
調査は、HNSWがデータセットのスペクトルにわたって有効であることに焦点を当てている。
我々は、KN(K Nearest Neighbours)探索と比較して、近似HNSW探索のリコールが、ベクトル空間の固有次元と結びついていることを発見した。
一般的なベンチマークデータセットをKNNの代わりにHNSWで実行することで、いくつかのモデルではランキングを最大3ポジションシフトすることができる。
論文 参考訳(メタデータ) (2024-05-28T04:16:43Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - LeanVec: Searching vectors faster by making them fit [1.0863382547662974]
本稿では,高次元ベクトル上での類似性探索を高速化するために,線形次元減少とベクトル量子化を組み合わせたフレームワークLeanVecを提案する。
LeanVecは、検索のスループットを最大3.7倍改善し、インデックスビルド時間を最大4.9倍高速化する、最先端の結果を生成する。
論文 参考訳(メタデータ) (2023-12-26T21:14:59Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Embracing Structure in Data for Billion-Scale Semantic Product Search [14.962039276966319]
我々は、数十億の規模でダイアドニューラル埋め込みモデルを訓練し、展開するための原則的アプローチを提案する。
実世界のデータセットの自然な構造を活用することで、両方の課題に効率的に対処できることが示される。
論文 参考訳(メタデータ) (2021-10-12T16:14:13Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Learning a Compact State Representation for Navigation Tasks by
Autoencoding 2D-Lidar Scans [7.99536002595393]
ナビゲーションタスクにおける強化学習のための2次元ライダースキャンのコンパクト表現を生成する。
特に,連続走査,特にエゴモーションの関係を,メモリモデルを適用して考察する。
実験により,ライダーデータを高度に圧縮し,潜伏空間の有意義な分布を維持し,時間依存情報を組み込む手法の有効性が示された。
論文 参考訳(メタデータ) (2021-02-03T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。