論文の概要: RFOD: Random Forest-based Outlier Detection for Tabular Data
- arxiv url: http://arxiv.org/abs/2510.08747v1
- Date: Thu, 09 Oct 2025 19:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.588894
- Title: RFOD: Random Forest-based Outlier Detection for Tabular Data
- Title(参考訳): RFOD:ランダムフォレストを用いたタブラリデータ外乱検出
- Authors: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang,
- Abstract要約: 外乱検出は、サイバーセキュリティ、金融詐欺検出、医療といった高度な領域におけるデータの整合性を保護するために不可欠である。
textsfRFODは特徴的条件付き再構成問題として異常検出をリフレームする。
textsfRFODは、検出精度において最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 12.469208664014472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
- Abstract(参考訳): 表形式のデータの異常検出は、サイバーセキュリティ、金融詐欺検出、医療といった高度な領域におけるデータの整合性を保護するために不可欠である。
データマイニングとディープラーニングの両方の進歩にもかかわらず、多くの既存の手法は混合型の表型データに苦慮し、重要な意味情報を失う符号化方式に依存している。
さらに、それらはしばしば解釈可能性に欠けており、特定の値が異常を引き起こすかについての洞察はほとんど得られない。
これらの課題を克服するために、我々は、表データに適した新しい \textsf{\textbf{RFOD}}、新しい \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection frameworkを紹介した。
グローバルな共同分布をモデル化する代わりに、textsf{RFOD} は異常検出を特徴的条件再構成問題として再編成し、他の特徴に条件付けされた各特徴に対して専用のランダム森林を訓練する。
この設計は、分類的特徴のセマンティックな整合性を保ちながら、不均一なデータ型をしっかりと扱う。
さらに正確かつ解釈可能な検出を可能にするために、 \textsf{RFOD} はセルレベルのスコアに調整された Gower's Distance (AGD) を組み合わせ、スキューされた数値データに適応し、カテゴリ的信頼度を考慮し、Uncertainty-Weighted Averaging (UWA) はセルレベルのスコアをロバストな行レベルの異常スコアに集約する。
15の実世界のデータセットに対する大規模な実験により、混合型表データに対して優れた堅牢性、スケーラビリティ、解釈性を提供しながら、‘textsf{RFOD}’は検出精度において最先端のベースラインを一貫して上回ることを示した。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [74.56971641937771]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Deep Context-Conditioned Anomaly Detection for Tabular Data [9.58464841713335]
異常検出は、サイバーセキュリティやファイナンスといった分野において重要である。
本稿では,文脈条件の異常検出フレームワークを提案する。
提案手法は,コンテキストの特徴を自動的に識別し,条件付きデータ分布をモデル化する。
論文 参考訳(メタデータ) (2025-09-10T22:01:11Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - A Dataset for Semantic Segmentation in the Presence of Unknowns [49.795683850385956]
既存のデータセットは、既知のものや未知のもののみの評価を可能にするが、両方ではない。
乱雑な実環境からの多様な異常な入力を特徴とする,新しい異常セグメンテーションデータセットISSUを提案する。
データセットは、既存の異常セグメンテーションデータセットの2倍大きい。
論文 参考訳(メタデータ) (2025-03-28T10:31:01Z) - Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - Enhanced Federated Anomaly Detection Through Autoencoders Using Summary Statistics-Based Thresholding [0.0]
フェデレートラーニング(FL)では、データの分散性のため、異常検出は難しい課題である。
本研究では,正規データと異常データの両方からの要約統計を利用した新しいフェデレーションしきい値計算手法を提案する。
提案手法は, クライアント間の局所的な要約統計データを集約し, 正常データから異常を最適に分離する大域しきい値を算出する。
論文 参考訳(メタデータ) (2024-10-11T22:21:14Z) - Federated Learning with Anomaly Detection via Gradient and Reconstruction Analysis [2.28438857884398]
自動エンコーダ駆動のデータ再構成と勾配解析を相乗化して、前例のない精度で有毒データを検出・緩和する新しいフレームワークを提案する。
本手法は, 最小偽陽性率を維持しつつ, 異常検出精度を15%向上させる。
私たちの仕事は、分散学習のセキュリティにおける将来の進歩の道を開くものです。
論文 参考訳(メタデータ) (2024-03-15T03:54:45Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - The Decaying Missing-at-Random Framework: Model Doubly Robust Causal Inference with Partially Labeled Data [8.916614661563893]
因果推論を両立させるために,MARフレームワークの欠落と関連するアプローチを導入する。
これはラベル付け機構における選択バイアスとラベル付きグループとラベルなしグループの極端な不均衡に同時に対処する。
因果関係の堅牢性を確保するため,平均治療効果に対するバイアス低減SS推定器を提案する。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。