論文の概要: Statistically-Robust Clustering Techniques for Mapping Spatial Hotspots:
A Survey
- arxiv url: http://arxiv.org/abs/2103.12019v1
- Date: Mon, 22 Mar 2021 17:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:44:54.523017
- Title: Statistically-Robust Clustering Techniques for Mapping Spatial Hotspots:
A Survey
- Title(参考訳): 空間ホットスポットマッピングのための統計的ロバストクラスタリング手法:サーベイ
- Authors: Yiqun Xie, Shashi Shekhar, Yan Li
- Abstract要約: これらの領域が必要とするクラスタリング技術は、経済と社会のコストが高いため、従来のクラスタリング手法とは異なる。
この分野で開発されたモデルとアルゴリズムの最新情報と詳細なレビューを紹介します。
- 参考スコア(独自算出の注目度): 5.169783325693032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mapping of spatial hotspots, i.e., regions with significantly higher rates or
probability density of generating certain events (e.g., disease or crime
cases), is a important task in diverse societal domains, including public
health, public safety, transportation, agriculture, environmental science, etc.
Clustering techniques required by these domains differ from traditional
clustering methods due to the high economic and social costs of spurious
results (e.g., false alarms of crime clusters). As a result, statistical rigor
is needed explicitly to control the rate of spurious detections. To address
this challenge, techniques for statistically-robust clustering have been
extensively studied by the data mining and statistics communities. In this
survey we present an up-to-date and detailed review of the models and
algorithms developed by this field. We first present a general taxonomy of the
clustering process with statistical rigor, covering key steps of data and
statistical modeling, region enumeration and maximization, significance
testing, and data update. We further discuss different paradigms and methods
within each of key steps. Finally, we highlight research gaps and potential
future directions, which may serve as a stepping stone in generating new ideas
and thoughts in this growing field and beyond.
- Abstract(参考訳): 公共衛生、公共安全、交通、農業、環境科学など、様々な社会分野において、空間ホットスポットのマッピング、すなわち、特定の事象を発生させる確率密度が著しく高い地域(例えば、病気や犯罪)は重要な課題である。
これらのドメインに必要なクラスタリング技術は、スプリアス結果(例えば犯罪クラスターの誤報)の経済的・社会的コストが高いため、従来のクラスタリング方法とは異なる。
その結果,突発的な検出率を制御するためには,統計的厳密性が必要である。
この課題に対処するために、統計ロバストクラスタリングの技術はデータマイニングと統計コミュニティによって広く研究されてきた。
本調査では,本分野で開発されたモデルとアルゴリズムについて,最新かつ詳細なレビューを行う。
まず,データと統計モデリング,領域列挙と最大化,重要度テスト,データ更新の重要なステップを網羅した,統計厳密なクラスタリングプロセスの一般的な分類法を提案する。
さらに,各ステップにおいて異なるパラダイムとメソッドについて論じる。
最後に、この成長する分野における新しいアイデアと思考を生み出すための足掛かりとなるかもしれない研究のギャップと将来的な方向性を強調します。
関連論文リスト
- Online Model-based Anomaly Detection in Multivariate Time Series: Taxonomy, Survey, Research Challenges and Future Directions [0.017476232824732776]
時系列異常検出は、エンジニアリングプロセスにおいて重要な役割を果たす。
この調査では、オンラインとオフラインの区別とトレーニングと推論を行う新しい分類法を紹介した。
文献で使用される最も一般的なデータセットと評価指標、および詳細な分析を示す。
論文 参考訳(メタデータ) (2024-08-07T13:01:10Z) - A step towards the integration of machine learning and small area
estimation [0.0]
本稿では,機械学習アルゴリズムがサポートする予測器を提案する。
仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
論文 参考訳(メタデータ) (2024-02-12T09:43:17Z) - Improving Link Prediction in Social Networks Using Local and Global
Features: A Clustering-based Approach [0.0]
本稿では,リンク予測問題に対処するため,第1グループと第2グループを組み合わせた手法を提案する。
提案手法は,まずノードの位置と動的挙動に関連する特徴を同定する。
そして、計算された類似度尺度に基づいて、サブスペースクラスタリングアルゴリズムをグループ社会オブジェクトに適用する。
論文 参考訳(メタデータ) (2023-05-17T14:45:02Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Data-Centric Epidemic Forecasting: A Survey [56.99209141838794]
この調査は、様々なデータ駆動の方法論および実践的進歩を掘り下げるものである。
疫学的なデータセットと,流行予測に関連する新しいデータストリームを列挙する。
また,これらの予測システムの現実的な展開において生じる経験や課題についても論じる。
論文 参考訳(メタデータ) (2022-07-19T16:15:11Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Through the Data Management Lens: Experimental Analysis and Evaluation
of Fair Classification [75.49600684537117]
データ管理研究は、データとアルゴリズムの公平性に関連するトピックに対する存在感と関心が高まっている。
我々は,その正しさ,公平性,効率性,スケーラビリティ,安定性よりも,13の公正な分類アプローチと追加の変種を幅広く分析している。
我々の分析は、異なるメトリクスとハイレベルなアプローチ特性がパフォーマンスの異なる側面に与える影響に関する新しい洞察を強調します。
論文 参考訳(メタデータ) (2021-01-18T22:55:40Z) - Event Prediction in the Big Data Era: A Systematic Survey [7.3810864598379755]
ビッグデータ時代において、イベント予測は実行可能な選択肢になりつつある。
本稿では,イベント予測の技術,応用,評価について,体系的かつ包括的な調査を行うことを目的とする。
論文 参考訳(メタデータ) (2020-07-19T23:24:52Z) - A Survey on Causal Inference [64.45536158710014]
因果推論は統計学、コンピュータ科学、教育、公共政策、経済学など、多くの分野において重要な研究トピックである。
観測データに対する様々な因果効果推定法が誕生した。
論文 参考訳(メタデータ) (2020-02-05T21:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。