論文の概要: Explaining the Success of Nearest Neighbor Methods in Prediction
- arxiv url: http://arxiv.org/abs/2502.15900v1
- Date: Fri, 21 Feb 2025 19:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:08.291045
- Title: Explaining the Success of Nearest Neighbor Methods in Prediction
- Title(参考訳): 最近近傍手法の予測における成功について
- Authors: George H. Chen, Devavrat Shah,
- Abstract要約: 予測手法は近接探索を利用して過去のトレーニング例をテスト例と最もよく似たものにする。
この本は、理論上も実際においても、これらの手法の成功を説明することを目的としている。
- 参考スコア(独自算出の注目度): 20.63799450632279
- License:
- Abstract: Many modern methods for prediction leverage nearest neighbor search to find past training examples most similar to a test example, an idea that dates back in text to at least the 11th century and has stood the test of time. This monograph aims to explain the success of these methods, both in theory, for which we cover foundational nonasymptotic statistical guarantees on nearest-neighbor-based regression and classification, and in practice, for which we gather prominent methods for approximate nearest neighbor search that have been essential to scaling prediction systems reliant on nearest neighbor analysis to handle massive datasets. Furthermore, we discuss connections to learning distances for use with nearest neighbor methods, including how random decision trees and ensemble methods learn nearest neighbor structure, as well as recent developments in crowdsourcing and graphons. In terms of theory, our focus is on nonasymptotic statistical guarantees, which we state in the form of how many training data and what algorithm parameters ensure that a nearest neighbor prediction method achieves a user-specified error tolerance. We begin with the most general of such results for nearest neighbor and related kernel regression and classification in general metric spaces. In such settings in which we assume very little structure, what enables successful prediction is smoothness in the function being estimated for regression, and a low probability of landing near the decision boundary for classification. In practice, these conditions could be difficult to verify for a real dataset. We then cover recent guarantees on nearest neighbor prediction in the three case studies of time series forecasting, recommending products to people over time, and delineating human organs in medical images by looking at image patches. In these case studies, clustering structure enables successful prediction.
- Abstract(参考訳): 現代の多くの予測手法は、近隣の探索を利用して過去の訓練例をテストの例に最もよく似ており、このアイデアは少なくとも11世紀にテキストで遡り、時間の試行に耐えてきた。
このモノグラフは、理論上、近隣の回帰と分類に関する基礎的な漸近的統計的保証を網羅する理論上、近隣の近距離探索において、近隣の大規模データセットに頼った予測システムのスケーリングに欠かせない顕著な手法を収集する理論上、これらの手法の成功を説明することを目的としている。
さらに, 近接する手法と学習距離との関係について考察し, ランダムな決定木やアンサンブル手法が近接する構造を学習する方法や, クラウドソーシングやグラフオンの最近の発展について考察する。
理論の観点からは、近辺の予測手法がユーザの指定したエラー許容性を達成することを保証するトレーニングデータ数とアルゴリズムパラメータの形式で述べる、漸近的統計保証に重点を置いている。
一般距離空間において、最も近い近傍および関連するカーネルの回帰と分類について、そのような結果の最も一般的な結果から始める。
非常に少ない構造を仮定すると、回帰のために推定される関数の滑らかさや、分類のための決定境界付近に着陸する確率が低い。
実際には、これらの条件は実際のデータセットの検証が困難である可能性がある。
次に、時系列予測の3つのケーススタディにおいて、近辺の予測に関する最近の保証を取り上げ、時間とともに商品を推奨し、画像パッチを見て、医療画像中のヒトの臓器を描写する。
これらのケーススタディでは、クラスタリング構造によって予測が成功する。
関連論文リスト
- In-Context Parametric Inference: Point or Distribution Estimators? [66.22308335324239]
償却点推定器は一般に後部推論より優れているが、後者は低次元問題では競争力がある。
実験の結果, 償却点推定器は一般に後部推定より優れているが, 後者は低次元問題では競争力があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T10:00:24Z) - Efficient Nearest Neighbor based Uncertainty Estimation for Natural Language Processing Tasks [26.336947440529713]
モデル予測の信頼性は、現実世界の安全クリティカルなアプリケーションには不可欠である。
ディープニューラルネットワークは、誤校正などの不確実性推定の問題に悩まされることが多い。
我々は、近隣住民からの距離だけでなく、近隣住民のラベルの比率を用いて、最も近い隣人不確実性推定(k$NN-UE)を提案する。
論文 参考訳(メタデータ) (2024-07-02T10:33:31Z) - Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。
我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-01T20:44:48Z) - Improving Event Time Prediction by Learning to Partition the Event Time
Space [13.5391816206237]
最近開発された生存分析法は, 未特定時間間隔のそれぞれの事象発生確率を予測し, 既存手法を改良した。
限られた利用可能なデータを持つ臨床環境では、手前の予測タスクに適した限られた間隔にイベント時間空間を散発的に分割することが好ましい。
2つのシミュレーションデータセットにおいて、基礎となる生成モデルと一致する間隔を復元できることが示される。
次に,新たに調和した脳卒中リスク予測データセットを含む実世界の3つの観測データに対して,予測性能の向上を示す。
論文 参考訳(メタデータ) (2023-10-24T14:11:40Z) - Iterative Methods for Vecchia-Laplace Approximations for Latent Gaussian Process Models [11.141688859736805]
本稿では,いくつかのプレコンディショナーを導入,解析し,新しい収束結果の導出を行い,予測分散を正確に近似する新しい手法を提案する。
特に、Coleskyベースの計算と比較すると、桁違いの高速化が得られる。
すべてのメソッドは、ハイレベルなPythonとRパッケージを備えたフリーのC++ソフトウェアライブラリで実装されている。
論文 参考訳(メタデータ) (2023-10-18T14:31:16Z) - Optimal Extended Neighbourhood Rule $k$ Nearest Neighbours Ensemble [1.8843687952462742]
本稿では,新しい拡張近傍ルールに基づくアンサンブル法を提案する。
アンサンブルは、精度、Cohen's kappa、Brier score(BS)を使用した17のベンチマークデータセットの最先端の手法と比較される。
論文 参考訳(メタデータ) (2022-11-21T09:13:54Z) - A k nearest neighbours classifiers ensemble based on extended
neighbourhood rule and features subsets [0.4709844746265484]
kNNベースのアンサンブル法は、不明瞭な観測に最も近い与えられた特徴空間におけるデータポイントの集合を識別することにより、外れ値の効果を最小化する。
そこで本論文では, 隣人がkステップで決定される, k近傍のアンサンブルを提案する。
論文 参考訳(メタデータ) (2022-05-30T13:57:32Z) - Robustification of Online Graph Exploration Methods [59.50307752165016]
我々は、古典的で有名なオンライングラフ探索問題の学習強化版について研究する。
本稿では,予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:02:31Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Adversarial Examples for $k$-Nearest Neighbor Classifiers Based on
Higher-Order Voronoi Diagrams [69.4411417775822]
逆例は機械学習モデルにおいて広く研究されている現象である。
そこで本研究では,$k$-nearest 近傍分類の逆ロバスト性を評価するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。