論文の概要: A new hashing based nearest neighbors selection technique for big
datasets
- arxiv url: http://arxiv.org/abs/2004.02290v2
- Date: Wed, 10 Feb 2021 03:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:28:23.892761
- Title: A new hashing based nearest neighbors selection technique for big
datasets
- Title(参考訳): 大規模データセットのための新しいハッシュベース近傍選択手法
- Authors: Jude Tchaye-Kondi, Yanlong Zhai, Liehuang Zhu
- Abstract要約: 本稿では, 観測対象の近傍に直接近接する近隣住民の選別を可能にする新しい手法を提案する。
提案手法は,データ空間上に構築された仮想グリッドのサブセルにデータ空間を分割する。
提案アルゴリズムは,元のKNNよりも時間効率が良く,予測品質もKNNと同等である。
- 参考スコア(独自算出の注目度): 14.962398031252063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: KNN has the reputation to be the word simplest but efficient supervised
learning algorithm used for either classification or regression. KNN prediction
efficiency highly depends on the size of its training data but when this
training data grows KNN suffers from slowness in making decisions since it
needs to search nearest neighbors within the entire dataset at each decision
making. This paper proposes a new technique that enables the selection of
nearest neighbors directly in the neighborhood of a given observation. The
proposed approach consists of dividing the data space into subcells of a
virtual grid built on top of data space. The mapping between the data points
and subcells is performed using hashing. When it comes to select the nearest
neighbors of a given observation, we firstly identify the cell the observation
belongs by using hashing, and then we look for nearest neighbors from that
central cell and cells around it layer by layer. From our experiment
performance analysis on publicly available datasets, our algorithm outperforms
the original KNN in time efficiency with a prediction quality as good as that
of KNN it also offers competitive performance with solutions like KDtree
- Abstract(参考訳): KNNは、分類や回帰に使用される最も単純だが効率的な教師付き学習アルゴリズムであるという評判がある。
KNN予測効率は、トレーニングデータのサイズに大きく依存するが、このトレーニングデータが成長すると、データセット全体の近傍を各意思決定で探索する必要があるため、意思決定の遅さに悩まされる。
本稿では, 観測対象の近傍に直接近接する近隣住民の選別を可能にする新しい手法を提案する。
提案手法は,データ空間上に構築された仮想グリッドのサブセルにデータ空間を分割する。
データポイントとサブセル間のマッピングはハッシュを用いて行われる。
与えられた観測の最も近い隣接細胞を選択する場合、まずハッシングを用いて観測対象の細胞を識別し、次にその中心細胞とその周辺の細胞層から最寄りの隣接細胞を探す。
公開データセットにおける実験性能分析から,我々のアルゴリズムは,KNNと同等の予測品質で,元のKNNの時間効率を上回り,KDtreeのようなソリューションとの競合性能も提供する。
関連論文リスト
- Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - k-NNN: Nearest Neighbors of Neighbors for Anomaly Detection [20.204147875108976]
異常検出は、標準から大きく逸脱した画像を特定することを目的としている。
埋め込み空間における特徴の様々な構造と重要性を考慮に入れた新しい演算子を提案する。
既存のアルゴリズムに最も近いコンポーネントをk-NNN演算子に置き換えるだけで、残りのアルゴリズムに手を加えずに、各アルゴリズムの処理結果を改善できることが示される。
論文 参考訳(メタデータ) (2023-05-28T11:39:51Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - A Note on "Efficient Task-Specific Data Valuation for Nearest Neighbor
Algorithms" [18.65808473565554]
Jiaらによると、K-Nearest Neighbors(KNN)モデルでは、Data Shapleyのアルゴリズムは驚くほどシンプルで効率的である。
KNNモデルの性能をよりよく反映した、より自然で解釈可能なユーティリティ関数を提案する。
我々の新しいアプローチは、ソフトラベルKNNSVと呼ばれ、元の方法と同じ時間を達成する。
論文 参考訳(メタデータ) (2023-04-09T15:31:53Z) - Provable Data Subset Selection For Efficient Neural Network Training [73.34254513162898]
本稿では,任意の放射基底関数ネットワーク上での入力データの損失を近似する,emphRBFNNのコアセットを構成するアルゴリズムについて紹介する。
次に、一般的なネットワークアーキテクチャやデータセット上で、関数近似とデータセットサブセットの選択に関する経験的評価を行う。
論文 参考訳(メタデータ) (2023-03-09T10:08:34Z) - Optimal Extended Neighbourhood Rule $k$ Nearest Neighbours Ensemble [1.8843687952462742]
本稿では,新しい拡張近傍ルールに基づくアンサンブル法を提案する。
アンサンブルは、精度、Cohen's kappa、Brier score(BS)を使用した17のベンチマークデータセットの最先端の手法と比較される。
論文 参考訳(メタデータ) (2022-11-21T09:13:54Z) - Dynamic Ensemble Selection Using Fuzzy Hyperboxes [10.269997499911668]
本稿では,FH-DESと呼ばれるファジィハイパーボックスに基づく動的アンサンブル選択(DES)フレームワークを提案する。
各ハイパーボックスは、2つのデータポイント(MinとMaxのコーナー)のみを使用してサンプルのグループを表現することができる。
それまでの融合法では観測されていなかった分類器の能力を評価するために、初めて誤分類されたサンプルが使用される。
論文 参考訳(メタデータ) (2022-05-20T21:06:46Z) - Rethinking Nearest Neighbors for Visual Classification [56.00783095670361]
k-NNは、トレーニングセット内のテストイメージとトップk隣人間の距離を集約する遅延学習手法である。
我々は,教師付き手法と自己監督型手法のいずれでも,事前学習した視覚表現を持つk-NNを2つのステップで採用する。
本研究は,幅広い分類タスクに関する広範な実験により,k-NN統合の汎用性と柔軟性を明らかにした。
論文 参考訳(メタデータ) (2021-12-15T20:15:01Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - KNN Classification with One-step Computation [10.381276986079865]
KNN分類の遅延部分を置き換える一段階計算を提案する。
提案手法を実験的に評価し,一段階のKNN分類が効率的かつ有望であることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:34:42Z) - Adversarial Examples for $k$-Nearest Neighbor Classifiers Based on
Higher-Order Voronoi Diagrams [69.4411417775822]
逆例は機械学習モデルにおいて広く研究されている現象である。
そこで本研究では,$k$-nearest 近傍分類の逆ロバスト性を評価するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。