論文の概要: On Aggregation Queries over Predicted Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2502.18803v1
- Date: Wed, 26 Feb 2025 04:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:55:18.446198
- Title: On Aggregation Queries over Predicted Nearest Neighbors
- Title(参考訳): 近辺の予測に関する集約的クエリについて
- Authors: Carrie Wang, Sihem Amer-Yahia, Laks V. S. Lakshmanan, Reynold Cheng,
- Abstract要約: 指定されたオブジェクトの予測近傍における新しいタイプの集約クエリであるAQNNを紹介する。
AQNNは、例えば、医療専門家が「特定の不眠症患者に類似した予測された患者の平均的な収縮血圧」を計算したいという現代の応用で一般的である。
予測は通常、高価なディープラーニングモデルや人間の専門家が関与するため、近似集約を返す問題としてクエリ処理を定式化する。
- 参考スコア(独自算出の注目度): 33.06696811081107
- License:
- Abstract: We introduce Aggregation Queries over Nearest Neighbors (AQNNs), a novel type of aggregation queries over the predicted neighborhood of a designated object. AQNNs are prevalent in modern applications where, for instance, a medical professional may want to compute "the average systolic blood pressure of patients whose predicted condition is similar to a given insomnia patient". Since prediction typically involves an expensive deep learning model or a human expert, we formulate query processing as the problem of returning an approximate aggregate by combining an expensive oracle and a cheaper model (e.g, a simple ML model) to compute the predictions. We design the Sampler with Precision-Recall in Target (SPRinT) framework for answering AQNNs. SPRinT consists of sampling, nearest neighbor refinement, and aggregation, and is tailored for various aggregation functions. It enjoys provable theoretical guarantees, including bounds on sample size and on error in approximate aggregates. Our extensive experiments on medical, e-commerce, and video datasets demonstrate that SPRinT consistently achieves the lowest aggregation error with minimal computation cost compared to its baselines. Scalability results show that SPRinT's execution time and aggregation error remain stable as the dataset size increases, confirming its suitability for large-scale applications.
- Abstract(参考訳): 本稿では,AQNN(Aggregation Queries over Nearest Neighbors)を提案する。
AQNNは、例えば、医療専門家が「特定の不眠症患者に類似した予測された患者の平均的な収縮血圧」を計算したいという現代の応用で一般的である。
予測は通常、高価なディープラーニングモデルや人間の専門家を含むため、高価なオラクルと安価なモデル(単純なMLモデルなど)を組み合わせることで、近似集約を返す問題としてクエリ処理を定式化する。
我々は、AQNNに応答するためのSPRinT(Precision-Recall in Target)フレームワークを設計する。
SPRinTはサンプリング、近傍の精製、集約で構成され、様々なアグリゲーション機能用に調整されている。
証明可能な理論的な保証を享受しており、サンプルサイズと近似集合の誤差に関する境界を含む。
医療、電子商取引、ビデオのデータセットに関する広範な実験により、SPRinTは、ベースラインと比較して計算コストが最小となる最小のアグリゲーション誤差を一貫して達成していることが示された。
スケーラビリティの結果、データセットのサイズが大きくなるにつれてSPRinTの実行時間とアグリゲーションエラーが安定していることが示され、大規模アプリケーションに適していることが確認された。
関連論文リスト
- Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - ALMERIA: Boosting pairwise molecular contrasts with scalable methods [0.0]
ALMERIAは、一対の分子コントラストに基づく化合物の類似性と活性予測を推定するためのツールである。
大量のデータを利用するスケーラブルなソフトウェアと手法を使って実装されている。
分子活性予測の最先端性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-04-28T16:27:06Z) - Predictive Querying for Autoregressive Neural Sequence Models [23.85426261235507]
本稿では,ニューラル自己回帰シーケンスモデルにおける予測クエリの汎用型について紹介する。
このようなクエリは,基本構造ブロックの集合によって体系的に表現可能であることを示す。
我々はこの型を利用して新しいクエリ推定手法を開発した。
論文 参考訳(メタデータ) (2022-10-12T17:59:36Z) - Contrastive Neural Ratio Estimation for Simulation-based Inference [15.354874711988662]
Likelihood-to-evidence ratio Estimation は通常、バイナリ (NRE-A) またはマルチクラス (NRE-B) の分類タスクとしてキャストされる。
バイナリ分類フレームワークとは対照的に、現在のマルチクラスバージョンの定式化は本質的で未知のバイアス項を持つ。
我々は,NRE-Bに固有のバイアスを最適に含まないマルチクラスフレームワークを提案し,実践者が依存する診断を行う立場に置かれる。
論文 参考訳(メタデータ) (2022-10-11T00:12:51Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Electra: Conditional Generative Model based Predicate-Aware Query
Approximation [10.056919500568013]
ELECTRAは述語対応のAQPシステムで、多くの述語で分析スタイルのクエリに答えることができ、近似誤差ははるかに小さい。
実世界の3つのデータセットに対する4つの異なるベースラインによる評価の結果,ELECTRAはベースラインと比較して多数の述語に対して低いAQP誤差を提供することがわかった。
論文 参考訳(メタデータ) (2022-01-28T21:13:26Z) - Predict then Interpolate: A Simple Algorithm to Learn Stable Classifiers [59.06169363181417]
Predict then Interpolate (PI) は環境全体にわたって安定な相関関係を学習するためのアルゴリズムである。
正しい予測と間違った予測の分布を補間することにより、不安定な相関が消えるオラクル分布を明らかにすることができる。
論文 参考訳(メタデータ) (2021-05-26T15:37:48Z) - Leverage Score Sampling for Complete Mode Coverage in Generative
Adversarial Networks [11.595070613477548]
生成モデルは、経験的データ分布の頻度が低い、表現不足のモードを見落とすことができる。
リッジレバレッジスコアに基づくサンプリング手順を提案し、標準手法と比較してモードカバレッジを大幅に向上させます。
論文 参考訳(メタデータ) (2021-04-06T09:00:38Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。