論文の概要: On the Use of Bagging for Local Intrinsic Dimensionality Estimation
- arxiv url: http://arxiv.org/abs/2603.24384v1
- Date: Wed, 25 Mar 2026 15:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.348589
- Title: On the Use of Bagging for Local Intrinsic Dimensionality Estimation
- Title(参考訳): 局所固有次元推定におけるバギングの利用について
- Authors: Kristóf Péter, Ricardo J. G. B. Campello, James Bailey, Michael E. Houle,
- Abstract要約: 本稿では,近距離(NN)の局所分布を保存するためにサブバッグを用いたアンサンブル手法を提案する。
我々は,LID推定に用いるサンプリングレートとk-NNサイズの選択が,アンサンブルサイズとともに性能に与える影響を理論的および実験的に解析した。
- 参考スコア(独自算出の注目度): 6.621518682026852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The theory of Local Intrinsic Dimensionality (LID) has become a valuable tool for characterizing local complexity within and across data manifolds, supporting a range of data mining and machine learning tasks. Accurate LID estimation requires samples drawn from small neighborhoods around each query to avoid biases from nonlocal effects and potential manifold mixing, yet limited data within such neighborhoods tends to cause high estimation variance. As a variance reduction strategy, we propose an ensemble approach that uses subbagging to preserve the local distribution of nearest neighbor (NN) distances. The main challenge is that the uniform reduction in total sample size within each subsample increases the proximity threshold for finding a fixed number k of NNs around the query. As a result, in the specific context of LID estimation, the sampling rate has an additional, complex interplay with the neighborhood size, where both combined determine the sample size as well as the locality and resolution considered for estimation. We analyze both theoretically and experimentally how the choice of the sampling rate and the k-NN size used for LID estimation, alongside the ensemble size, affects performance, enabling informed prior selection of these hyper-parameters depending on application-based preferences. Our results indicate that within broad and well-characterized regions of the hyper-parameters space, using a bagged estimator will most often significantly reduce variance as well as the mean squared error when compared to the corresponding non-bagged baseline, with controllable impact on bias. We additionally propose and evaluate different ways of combining bagging with neighborhood smoothing for substantial further improvements on LID estimation performance.
- Abstract(参考訳): 局所固有次元(LID)の理論は、データ多様体内の局所的な複雑さを特徴づける貴重なツールとなり、データマイニングや機械学習タスクをサポートする。
正確なLID推定には、非局所効果や潜在的な多様体混合からのバイアスを避けるために、クエリの周りの小さな近傍から引き出されたサンプルが必要であるが、そのような地区内の限られたデータは高い推定ばらつきを引き起こす傾向がある。
分散低減戦略として,近接するNN距離の局所分布を保存するためにサブバッグを用いたアンサンブル手法を提案する。
主な課題は、各サブサンプル内の全サンプルサイズを均一に削減することで、クエリの周囲に固定数kのNNを見つけるための近接しきい値が増加することである。
その結果, LID推定の特定の文脈において, サンプリングレートは, 双方が標本サイズと推定対象の局所性および分解能を判定する近傍サイズと, 付加的かつ複雑な相互作用を有することがわかった。
我々は,LID推定に使用するサンプリングレートとk-NNサイズの選択が,アンサンブルサイズとともに性能にどのように影響するかを理論的および実験的に分析し,アプリケーションベースの好みに応じてこれらのハイパーパラメータの事前選択を可能にする。
以上の結果から,高パラメータ空間の広帯域・高特性領域において,有意なばらつきと,それに対応する非有意なベースラインと比較した場合の平均2乗誤差が,バイアスの影響を抑えられることが示唆された。
また,LID推定性能を大幅に向上させるため,バッジと近所の平滑化を組み合わせた様々な手法を提案し,評価する。
関連論文リスト
- Efficient Covariance Estimation for Sparsified Functional Data [51.69796254617083]
共分散関数のランダムノット(ランダムノット-空間)とB-スプライン(Bspline-Spatial)推定器は計算的に効率的である。
共分散の漸近的なポイントワイドは、ある規則性条件下でのスパース化された個々の軌跡に対して得られる。
論文 参考訳(メタデータ) (2025-11-23T00:50:33Z) - Towards Size-invariant Salient Object Detection: A Generic Evaluation and Optimization Approach [118.75896764188424]
本稿では,既存の広範に使用されているSalient Object Detectionメトリクスの固有サイズ感度を明らかにするために,新しい視点を示す。
この課題に対処するため、汎用的なサイズ不変評価(SIEva)フレームワークが提案されている。
さらに、サイズ不変の原理に固執する専用最適化フレームワーク(SIOpt)を開発し、幅広いサイズにわたる有能な物体の検出を大幅に強化する。
論文 参考訳(メタデータ) (2025-09-19T04:12:14Z) - Bayesian Multivariate Density-Density Regression [25.35298354797079]
多変量密度回帰(DDR)のための新規でスケーラブルなベイズフレームワークを提案する。
提案手法は,異なる次元の空間に居住する分布の重要な問題に対処する。
ベイジアンDDRは、従来の手法と比較して、堅牢な適合性、優れた予測性能、複雑な生物学的相互作用に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-17T03:46:03Z) - Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。
我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。
理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2024-11-14T11:16:32Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - An analysis of the noise schedule for score-based generative models [7.180235086275926]
スコアベース生成モデル(SGM)は、目標からのノイズ摂動サンプルのみを用いてスコア関数を学習することにより、目標データ分布を推定することを目的としている。
近年の文献では、ターゲットと推定分布の誤差を評価し、KL(Kulback-Leibler)の発散とワッサーシュタイン距離を通じて生成品質を測ることに重点を置いている。
対象と推定分布のKL分散の上限を時間依存ノイズスケジュールによって明確に設定する。
論文 参考訳(メタデータ) (2024-02-07T08:24:35Z) - Far Away in the Deep Space: Dense Nearest-Neighbor-Based
Out-of-Distribution Detection [33.78080060234557]
Nearest-Neighborsアプローチは、オブジェクト中心のデータドメインでうまく機能することが示されている。
近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近
論文 参考訳(メタデータ) (2022-11-12T13:32:19Z) - Intrinsic Dimensionality Estimation within Tight Localities: A
Theoretical and Experimental Analysis [0.0]
そこで本研究では,20個のサンプル点からなるタイトな局所性に対しても安定な局所ID推定手法を提案する。
実験結果から,提案手法の偏差は比較的小さいが, 偏差は比較的小さく, 試料径は最先端の推定値よりもはるかに小さいことがわかった。
論文 参考訳(メタデータ) (2022-09-29T00:00:11Z) - Distributionally Robust Local Non-parametric Conditional Estimation [22.423052432220235]
非パラメトリックな局所推定を生成する分布安定な新しい推定器を提案する。
一般には難解であるにもかかわらず、局所推定器は凸最適化によって効率的に見つけることができることを示す。
合成およびMNISTデータセットを用いた実験は、この新しいクラスの推定器の競合性能を示している。
論文 参考訳(メタデータ) (2020-10-12T00:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。