論文の概要: Learned k-NN Distance Estimation
- arxiv url: http://arxiv.org/abs/2208.14210v1
- Date: Mon, 29 Aug 2022 11:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 12:43:38.460441
- Title: Learned k-NN Distance Estimation
- Title(参考訳): 学習k-NN距離推定
- Authors: Daichi Amagata, Yusuke Arai, Sumio Fujita, Takahiro Hara
- Abstract要約: 確率に基づくデータ分析は、多くの実生活アプリケーションで特に利用されている。
与えられたクエリのk-NN距離を迅速かつ正確に推定する機械学習手法を提案する。
我々のモデルは、k-NNに一度に距離を推測し、その推定時間はO(1)(データアクセスは発生しない)である、という便利な利点を持つように設計されている。
- 参考スコア(独自算出の注目度): 15.119192064119455
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Big data mining is well known to be an important task for data science,
because it can provide useful observations and new knowledge hidden in given
large datasets. Proximity-based data analysis is particularly utilized in many
real-life applications. In such analysis, the distances to k nearest neighbors
are usually employed, thus its main bottleneck is derived from data retrieval.
Much efforts have been made to improve the efficiency of these analyses.
However, they still incur large costs, because they essentially need many data
accesses. To avoid this issue, we propose a machine-learning technique that
quickly and accurately estimates the k-NN distances (i.e., distances to the k
nearest neighbors) of a given query. We train a fully connected neural network
model and utilize pivots to achieve accurate estimation. Our model is designed
to have useful advantages: it infers distances to the k-NNs at a time, its
inference time is O(1) (no data accesses are incurred), but it keeps high
accuracy. Our experimental results and case studies on real datasets
demonstrate the efficiency and effectiveness of our solution.
- Abstract(参考訳): ビッグデータマイニングは、大量のデータセットに隠された有用な観察と新しい知識を提供するため、データサイエンスにとって重要なタスクとしてよく知られている。
確率に基づくデータ分析は多くの実生活アプリケーションで特に利用されている。
このような分析では、k に近い近傍への距離は通常用いられるため、その主なボトルネックはデータ検索によるものである。
これらの分析の効率を改善するために多くの努力がなされている。
しかし、基本的に多くのデータアクセスを必要とするため、大きなコストがかかる。
この問題を回避するために,与えられたクエリのk-nn距離(すなわち,k-nn距離)を迅速かつ正確に推定する機械学習手法を提案する。
我々は,完全連結ニューラルネットワークモデルを訓練し,ピボットを用いて正確な推定を行う。
我々のモデルは,k-NNとの距離を一度に推定し,その推定時間はO(1)(データアクセスは発生しない)であるが,精度は高い。
実際のデータセットに関する実験結果とケーススタディは,ソリューションの有効性と有効性を示している。
関連論文リスト
- Approximate Nearest Neighbour Search on Dynamic Datasets: An Investigation [20.409659920455955]
近似k-Nearest Neighbour (ANN) 法は情報マイニングや大規模高次元データセットでの機械学習支援によく用いられる。
静的なデータセットを持つアプリケーションでは、ランタイム制約とデータセットプロパティを使用して、適切な操作特性を持つANNメソッドを経験的に選択することができる。
従来の評価手法は、インデックス構造を更新する際の計算コストや、インデックス更新の率とサイズを考慮していない。
論文 参考訳(メタデータ) (2024-04-30T06:21:44Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Simple and Effective Augmentation Methods for CSI Based Indoor
Localization [37.3026733673066]
物理的考察により,チャネル状態情報に基づく屋内位置推定のための2つのアルゴリズムを提案する。
オリジナルのデータセットのサイズの10%は、オリジナルのデータセットと同じパフォーマンスを得るのに十分です。
提案手法によりさらにデータセットを増大させると、テスト精度は3倍以上に向上する。
論文 参考訳(メタデータ) (2022-11-19T20:27:46Z) - KENN: Enhancing Deep Neural Networks by Leveraging Knowledge for Time
Series Forecasting [6.652753636450873]
本稿では,時系列予測のための知識融合アーキテクチャである知識拡張ニューラルネットワーク(KENN)を提案する。
我々は、KENNがフレームワーク全体のデータ依存を減らすだけでなく、純粋に知識とデータ駆動ドメインによって生成されるものよりも優れた予測を生成することで、パフォーマンスを向上させることを示した。
論文 参考訳(メタデータ) (2022-02-08T14:47:47Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - A Theoretical-Empirical Approach to Estimating Sample Complexity of DNNs [11.152761263415046]
本稿では,深層ニューラルネットワーク(DNN)のトレーニングデータ量と一般化誤差のスケールについて考察する。
我々は、ディープネットワークに保持され、到達不能な容量尺度に依存しない一般化誤差の推定を導出する。
論文 参考訳(メタデータ) (2021-05-05T05:14:08Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Deep Learning based Pedestrian Inertial Navigation: Methods, Dataset and
On-Device Inference [49.88536971774444]
慣性測定ユニット(IMU)は小型で安価でエネルギー効率が良く、スマートデバイスや移動ロボットに広く使われている。
正確で信頼性の高い歩行者ナビゲーションをサポートするために慣性データをエクスプロイトすることは、新しいインターネット・オブ・シングス・アプリケーションやサービスにとって重要なコンポーネントである。
我々は、深層学習に基づく慣性ナビゲーション研究のための最初の公開データセットであるOxIOD(OxIOD)を提示、リリースする。
論文 参考訳(メタデータ) (2020-01-13T04:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。