論文の概要: Unsupervised Space Partitioning for Nearest Neighbor Search
- arxiv url: http://arxiv.org/abs/2206.08091v1
- Date: Thu, 16 Jun 2022 11:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 03:51:28.157520
- Title: Unsupervised Space Partitioning for Nearest Neighbor Search
- Title(参考訳): 近傍探索のための教師なし空間分割
- Authors: Abrar Fahim, Mohammed Eunus Ali, Muhammad Aamir Cheema
- Abstract要約: 本稿では,個別の損失関数を用いて分割処理と学習段階を結合するエンドツーエンド学習フレームワークを提案する。
提案したソリューションの重要な利点は、データセットの高価な事前処理を必要としないことです。
提案手法は,最先端空間分割法とユビキタスK平均クラスタリング法に勝ることを示す。
- 参考スコア(独自算出の注目度): 6.516813715425121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approximate Nearest Neighbor Search (ANNS) in high dimensional spaces is
crucial for many real-life applications (e.g., e-commerce, web, multimedia,
etc.) dealing with an abundance of data. In this paper, we propose an
end-to-end learning framework that couples the partitioning (one key step of
ANNS) and learning-to-search steps using a custom loss function. A key
advantage of our proposed solution is that it does not require any expensive
pre-processing of the dataset, which is one of the key limitations of the
state-of-the-art approach. We achieve the above edge by formulating a
multi-objective custom loss function that does not need ground truth labels to
quantify the quality of a given partition of the data space, making it entirely
unsupervised. We also propose an ensembling technique by adding varying input
weights to the loss function to train an ensemble of models to enhance the
search quality. On several standard benchmarks for ANNS, we show that our
method beats the state-of-the-art space partitioning method and the ubiquitous
K-means clustering method while using fewer parameters and shorter offline
training times. Without loss of generality, our unsupervised partitioning
approach is shown as a promising alternative to many widely used clustering
methods like K-means clustering and DBSCAN.
- Abstract(参考訳): 高次元空間における近似Nearest Neighbor Search(ANNS)は、大量のデータを扱う多くの実生活アプリケーション(eコマース、Web、マルチメディアなど)にとって不可欠である。
本稿では,パーティショニング(ANNSの1つの重要なステップ)とカスタムロス関数を用いた学習とを結合したエンドツーエンド学習フレームワークを提案する。
提案したソリューションの重要な利点は、最先端アプローチの重要な制限のひとつであるデータセットの高価な前処理を必要としないことだ。
我々は、与えられたデータ空間の分割の品質を定量化するために基底真理ラベルを必要としない多目的カスタム損失関数を定式化し、完全に教師なしにする。
また,損失関数に様々な入力重みを加えることで,探索品質を高めるためにモデルのアンサンブルを訓練するアンサンブル手法を提案する。
annの標準ベンチマークでは,提案手法が最先端空間分割法とユビキタスk-meansクラスタリング法を上回り,パラメータを少なくし,オフライントレーニング時間を短縮した。
一般性を失うことなく、我々の教師なし分割手法はK平均クラスタリングやDBSCANのような広く使われているクラスタリング手法に代わる有望な選択肢として示される。
関連論文リスト
- Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Spacing Loss for Discovering Novel Categories [72.52222295216062]
新たなクラスディスカバリ(NCD)は、マシンラーニングモデルがラベルのないデータからインスタンスを意味的にグループ化する、学習パラダイムである。
まず,ラベル付きデータとラベルなしデータを併用する必要があるかどうかに基づいて,既存のNCD手法を1段階および2段階の手法に特徴付ける。
多次元スケーリングのキューを用いて、潜在空間における分離性を強制する単純で強力な損失関数を考案する。
論文 参考訳(メタデータ) (2022-04-22T09:37:11Z) - Generalized One-Class Learning Using Pairs of Complementary Classifiers [41.64645294104883]
1クラス学習は、単一のクラスでのみアノテーションが利用できるデータにモデルを適合させる古典的な問題である。
本稿では,一級学習の新たな目的を探求し,これを一般化一級識別サブスペース(GODS)と呼ぶ。
論文 参考訳(メタデータ) (2021-06-24T18:52:05Z) - Transductive Few-Shot Learning: Clustering is All You Need? [31.21306826132773]
そこで本研究では,プロトタイプをベースとした超越的数ショット学習の汎用的定式化について検討する。
提案手法は, 精度と最適化の観点から, 大きな問題にスケールアップしながら, 競争性能を向上する。
驚いたことに、私たちの一般的なモデルは、最先端の学習と比較して、すでに競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-06-16T16:14:01Z) - Deep Distribution-preserving Incomplete Clustering with Optimal
Transport [43.0056459311929]
DDIC-OT(Deep Distribution-preserving Incomplete Clustering with Optimal Transport)と呼ばれる新しい深層不完全クラスタリング手法を提案する。
提案ネットワークは, 既存の不完全クラスタリング手法に対して, 異なる欠落率で優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-03-21T15:43:17Z) - ThetA -- fast and robust clustering via a distance parameter [3.0020405188885815]
クラスタリングは機械学習の根本的な問題であり、遠隔ベースのアプローチが数十年にわたってこの分野を支配してきた。
Theta-based Algorithms (ThetA) と呼ばれる新しい距離しきい値法を提案する。
論文 参考訳(メタデータ) (2021-02-13T23:16:33Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。