論文の概要: Efficient Identification of High Similarity Clusters in Polygon Datasets
- arxiv url: http://arxiv.org/abs/2509.23942v1
- Date: Sun, 28 Sep 2025 15:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.546895
- Title: Efficient Identification of High Similarity Clusters in Polygon Datasets
- Title(参考訳): ポリゴンデータセットにおける高類似度クラスタの効率的な同定
- Authors: John N. Daras,
- Abstract要約: 本稿では,検証を必要とするクラスタ数を削減し,これらのシステムに対する計算負荷を低減させるフレームワークを提案する。
このフレームワークは動的類似性指数閾値、教師付きスケジューリング、リコール制約付き最適化を統合している。
提案手法は精度を犠牲にすることなく計算コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in tools like Shapely 2.0 and Triton can significantly improve the efficiency of spatial similarity computations by enabling faster and more scalable geometric operations. However, for extremely large datasets, these optimizations may face challenges due to the sheer volume of computations required. To address this, we propose a framework that reduces the number of clusters requiring verification, thereby decreasing the computational load on these systems. The framework integrates dynamic similarity index thresholding, supervised scheduling, and recall-constrained optimization to efficiently identify clusters with the highest spatial similarity while meeting user-defined precision and recall requirements. By leveraging Kernel Density Estimation (KDE) to dynamically determine similarity thresholds and machine learning models to prioritize clusters, our approach achieves substantial reductions in computational cost without sacrificing accuracy. Experimental results demonstrate the scalability and effectiveness of the method, offering a practical solution for large-scale geospatial analysis.
- Abstract(参考訳): Shapely 2.0やTritonのようなツールの進歩は、より高速でスケーラブルな幾何学的操作を可能にすることで、空間的類似性計算の効率を大幅に向上させることができる。
しかし、非常に大きなデータセットの場合、これらの最適化は必要な計算量が多すぎるため、課題に直面する可能性がある。
そこで本研究では,検証を必要とするクラスタ数を削減し,これらのシステムに対する計算負荷を低減させるフレームワークを提案する。
このフレームワークは、動的類似度指数閾値設定、教師付きスケジューリング、リコール制約付き最適化を統合し、ユーザ定義の精度とリコール要求を満たしながら、最も空間的類似度の高いクラスタを効率的に識別する。
カーネル密度推定(KDE)を利用して、類似度閾値と機械学習モデルを動的に決定し、クラスタを優先順位付けすることにより、精度を犠牲にすることなく計算コストを大幅に削減できる。
実験により,大規模地理空間解析のための実用的な解法として提案手法のスケーラビリティと有効性を示した。
関連論文リスト
- Data Skeleton Learning: Scalable Active Clustering with Sparse Graph Structures [14.417696261026492]
2つのスパースグラフを利用するグラフベースのアクティブクラスタリングアルゴリズムを提案する。
これら2つのグラフは協調して動作し、データスケルトン内の連結サブグラフを洗練してネストクラスタを生成することができる。
我々の経験的分析により,提案アルゴリズムはユーザによる制約の入力を劇的に減らし,より正確なクラスタリングを容易にすることが確認された。
論文 参考訳(メタデータ) (2025-09-10T12:18:52Z) - CAS Condensed and Accelerated Silhouette: An Efficient Method for Determining the Optimal K in K-Means Clustering [0.0]
本稿では,クラスタリングにおけるkの最適値を選択するための戦略を提案する。
複雑なデータ環境におけるクラスタリング精度と計算効率のバランスを達成することに焦点を当てている。
提案手法は,高次元データセット上での実行時間を最大99%高速化する。
論文 参考訳(メタデータ) (2025-07-11T05:03:16Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Center-Sensitive Kernel Optimization for Efficient On-Device Incremental Learning [88.78080749909665]
現在のオンデバイストレーニング手法は、破滅的な忘れを考慮せずに、効率的なトレーニングにのみ焦点をあてている。
本稿では,単純だが効果的なエッジフレンドリーなインクリメンタル学習フレームワークを提案する。
本手法は,メモリの削減と近似計算により,平均精度38.08%の高速化を実現する。
論文 参考訳(メタデータ) (2024-06-13T05:49:29Z) - Sample-Efficient "Clustering and Conquer" Procedures for Parallel Large-Scale Ranking and Selection [0.0]
並列コンピューティングにおいてよく使われる「分割と征服」フレームワークを,相関に基づくクラスタリングのステップを追加して修正する。
この一見単純な修正は、広く使われている大規模R&Sプロシージャの効率的なクラスに対して最適なサンプル複雑性の低減を実現する。
ニューラルネットワーク探索のような大規模AIアプリケーションでは,本手法は優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-03T15:56:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Randomized Dimension Reduction with Statistical Guarantees [0.27195102129095]
この論文は、高速な実行と効率的なデータ利用のためのアルゴリズムをいくつか探求している。
一般化と分散性を向上する様々なデータ拡張を組み込んだ学習アルゴリズムに着目する。
具体的には、第4章では、データ拡張整合正則化のための複雑性分析のサンプルを提示する。
論文 参考訳(メタデータ) (2023-10-03T02:01:39Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。