論文の概要: MacrOData: New Benchmarks of Thousands of Datasets for Tabular Outlier Detection
- arxiv url: http://arxiv.org/abs/2602.09329v1
- Date: Tue, 10 Feb 2026 01:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.322264
- Title: MacrOData: New Benchmarks of Thousands of Datasets for Tabular Outlier Detection
- Title(参考訳): MacrOData: タブラル外乱検出のための数千のデータセットのベンチマーク
- Authors: Xueying Ding, Simon Klüttermann, Haomin Wen, Yilong Chen, Leman Akoglu,
- Abstract要約: 表形式のデータの外部検出は、多くの現実世界のアプリケーションを支える。
注目すべきODベンチマークAdBenchは、文献のデファクトスタンダードであるが、57のデータセットのみで構成されている。
我々は3つの注意深くキュレートされたコンポーネントからなる表型ODのための大規模ベンチマークスイートであるMacrODataを紹介した。
スケールと多様性のため、MacrODataはODメソッドの包括的かつ統計的に堅牢な評価を可能にする。
- 参考スコア(独自算出の注目度): 25.690005491942884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality benchmarks are essential for fairly and accurately tracking scientific progress and enabling practitioners to make informed methodological choices. Outlier detection (OD) on tabular data underpins numerous real-world applications, yet existing OD benchmarks remain limited. The prominent OD benchmark AdBench is the de facto standard in the literature, yet comprises only 57 datasets. In addition to other shortcomings discussed in this work, its small scale severely restricts diversity and statistical power. We introduce MacrOData, a large-scale benchmark suite for tabular OD comprising three carefully curated components: OddBench, with 790 datasets containing real-world semantic anomalies; OvrBench, with 856 datasets featuring real-world statistical outliers; and SynBench, with 800 synthetically generated datasets spanning diverse data priors and outlier archetypes. Owing to its scale and diversity, MacrOData enables comprehensive and statistically robust evaluation of tabular OD methods. Our benchmarks further satisfy several key desiderata: We provide standardized train/test splits for all datasets, public/private benchmark partitions with held-out test labels for the latter reserved toward an online leaderboard, and annotate our datasets with semantic metadata. We conduct extensive experiments across all benchmarks, evaluating a broad range of OD methods comprising classical, deep, and foundation models, over diverse hyperparameter configurations. We report detailed empirical findings, practical guidelines, as well as individual performances as references for future research. All benchmarks containing 2,446 datasets combined are open-sourced, along with a publicly accessible leaderboard hosted at https://huggingface.co/MacrOData-CMU.
- Abstract(参考訳): 品質ベンチマークは、科学的進歩を正確に追跡し、実践者が適切な方法論の選択を行えるようにするために不可欠である。
表データの外部検出(OD)は多くの現実世界のアプリケーションを支えるが、既存のODベンチマークは限られている。
注目すべきODベンチマークAdBenchは、文献のデファクトスタンダードであるが、57のデータセットのみで構成されている。
この研究で議論された他の欠点に加えて、その小さなスケールは多様性と統計的パワーを著しく制限する。
OddBenchは現実世界のセマンティックな異常を含む790のデータセットを持ち、OvrBenchは856のデータセットに、SynBenchは800の合成的に生成されたデータセットで、様々なデータと外れ値のアーチタイプにまたがる。
スケールと多様性のため、MacrODataは表型OD法の包括的かつ統計的に堅牢な評価を可能にする。
すべてのデータセットに対して標準化されたトレイン/テストの分割、オンラインのリーダボードに予約されたテストラベルを持つ公開/プライベートのベンチマークパーティション、セマンティックなメタデータでデータセットに注釈を付ける。
我々は,古典的,深層的,基礎的なモデルからなる幅広いOD手法を,多様なハイパーパラメータ構成で評価し,すべてのベンチマークに対して広範な実験を行った。
今後の研究の参考として,実証的知見,実践的ガイドライン,個人パフォーマンスについて報告する。
2,446のデータセットを合わせたベンチマークはすべてオープンソースで、https://huggingface.co/MacrOData-CMUで公開されているリーダボードが公開されている。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。
運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。
これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。