論文の概要: Random Similarity Isolation Forests
- arxiv url: http://arxiv.org/abs/2502.19122v1
- Date: Wed, 26 Feb 2025 13:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:56:56.903952
- Title: Random Similarity Isolation Forests
- Title(参考訳): ランダム類似性分離林
- Authors: Sebastian Chwilczyński, Dariusz Brzezinski,
- Abstract要約: 本稿では,ランダム類似性分離林(Random similarityIsolate Forest)と呼ばれるマルチモーダル・アウトレイラ検出アルゴリズムを提案する。
本手法は,データセットと任意のデータ型の特徴の混合を扱うために,分離と類似性に基づくプロジェクションの概念を組み合わせる。
- 参考スコア(独自算出の注目度): 1.2845170214324664
- License:
- Abstract: With predictive models becoming prevalent, companies are expanding the types of data they gather. As a result, the collected datasets consist not only of simple numerical features but also more complex objects such as time series, images, or graphs. Such multi-modal data have the potential to improve performance in predictive tasks like outlier detection, where the goal is to identify objects deviating from the main data distribution. However, current outlier detection algorithms are dedicated to individual types of data. Consequently, working with mixed types of data requires either fusing multiple data-specific models or transforming all of the representations into a single format, both of which can hinder predictive performance. In this paper, we propose a multi-modal outlier detection algorithm called Random Similarity Isolation Forest. Our method combines the notions of isolation and similarity-based projection to handle datasets with mixtures of features of arbitrary data types. Experiments performed on 47 benchmark datasets demonstrate that Random Similarity Isolation Forest outperforms five state-of-the-art competitors. Our study shows that the use of multiple modalities can indeed improve the detection of anomalies and highlights the need for new outlier detection benchmarks tailored for multi-modal algorithms.
- Abstract(参考訳): 予測モデルの普及に伴い、企業は収集するデータの種類を拡大している。
その結果、収集されたデータセットは単純な数値的な特徴だけでなく、時系列、画像、グラフといったより複雑なオブジェクトで構成されている。
このようなマルチモーダルデータは、主データ分布から逸脱するオブジェクトを識別することを目的として、外れ値検出のような予測タスクのパフォーマンスを向上させる可能性がある。
しかし、現在の外れ値検出アルゴリズムは個々の種類のデータに特化している。
その結果、混在したデータを扱うには、複数のデータ固有のモデルを融合するか、すべての表現を単一のフォーマットに変換するか、どちらかが必要となる。
本稿では,ランダム類似性分離林(Random similarityIsolate Forest)と呼ばれるマルチモーダル・アウトレーラ検出アルゴリズムを提案する。
本手法は,データセットと任意のデータ型の特徴の混合を扱うために,分離と類似性に基づくプロジェクションの概念を組み合わせる。
47のベンチマークデータセットで実施された実験では、ランダム類似性分離フォレストが5つの最先端の競合より優れていることが示された。
本研究は,マルチモーダルアルゴリズムに適した新しい外乱検出ベンチマークの必要性を強調した。
関連論文リスト
- A Discrete-sequence Dataset for Evaluating Online Unsupervised Anomaly Detection Approaches for Multivariate Time Series [0.01874930567916036]
現在の公開データセットは小さすぎるため、多様ではない。
我々は、最先端のシミュレーションツールによって生成される多種多様な、広範囲で、非自明なデータセットという解決策を提案する。
トレーニングとテストサブセットが汚染された、クリーンなバージョンで提供されるように、データセットのさまざまなバージョンを利用可能にしています。
予想通り、ベースライン実験では、データセットの半教師付きバージョンでトレーニングされたアプローチが、教師なしバージョンよりも優れていた。
論文 参考訳(メタデータ) (2024-11-21T09:03:12Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - Hybrid Open-set Segmentation with Synthetic Negative Data [0.0]
開集合セグメンテーションは、閉集合分類と異常検出を補完することで実現できる。
生成的および識別的手がかりを融合させる新しい異常スコアを提案する。
実験では、計算オーバーヘッドが無視できないにもかかわらず、強力なオープンセット性能を示す。
論文 参考訳(メタデータ) (2023-01-19T11:02:44Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Positive Difference Distribution for Image Outlier Detection using
Normalizing Flows and Contrastive Data [2.9005223064604078]
例えば、標準的なログライクリーフトレーニングによる正規化フローは、外れ値スコアとして不十分である。
本稿では,外乱検出のための非ラベル付き補助データセットと確率的外乱スコアを提案する。
これは、分布内と対照的な特徴密度の間の正規化正の差を学ぶことと等価であることを示す。
論文 参考訳(メタデータ) (2022-08-30T07:00:46Z) - Random Similarity Forests [2.3204178451683264]
本稿では,任意のデータ型の特徴を持つデータセットを,各特徴の特徴を保ちながら扱える分類法を提案する。
提案したアルゴリズムはランダム類似林(Random similarity Forest)と呼ばれ、複数のドメイン固有の距離測定を用いて、ランダム類似林(Random Forests)の予測性能と類似林(Random similarity Forests)の柔軟性を組み合わせている。
ランダム類似林はRandom Forestsの数値データと同等であり、複雑なデータドメインや混合データドメインのデータセットよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-11T20:14:05Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Tell Me Something I Don't Know: Randomization Strategies for Iterative
Data Mining [0.6100370338020054]
我々は、以前に発見されたパターンやモデルを考慮に入れられるように、データのランダム化の問題を考える。
本稿では,以前に発見されたパターンやモデルを考慮に入れたデータランダム化の問題について考察する。
論文 参考訳(メタデータ) (2020-06-16T19:20:50Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。