論文の概要: AutoSlicer: Scalable Automated Data Slicing for ML Model Analysis
- arxiv url: http://arxiv.org/abs/2212.09032v1
- Date: Sun, 18 Dec 2022 07:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:54:12.824813
- Title: AutoSlicer: Scalable Automated Data Slicing for ML Model Analysis
- Title(参考訳): AutoSlicer:MLモデル解析のためのスケーラブルな自動データスライシング
- Authors: Zifan Liu and Evan Rosen and Paul Suganthan G. C
- Abstract要約: 本稿では,分散メトリクス計算と仮説テストにより問題スライスを探索するスケーラブルなシステムであるAutoslicerを提案する。
実験では,探索空間のごく一部を検査することで,異常なスライスの大部分を探索戦略が発見できることを示した。
- 参考スコア(独自算出の注目度): 3.3446830960153555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated slicing aims to identify subsets of evaluation data where a trained
model performs anomalously. This is an important problem for machine learning
pipelines in production since it plays a key role in model debugging and
comparison, as well as the diagnosis of fairness issues. Scalability has become
a critical requirement for any automated slicing system due to the large search
space of possible slices and the growing scale of data. We present Autoslicer,
a scalable system that searches for problematic slices through distributed
metric computation and hypothesis testing. We develop an efficient strategy
that reduces the search space through pruning and prioritization. In the
experiments, we show that our search strategy finds most of the anomalous
slices by inspecting a small portion of the search space.
- Abstract(参考訳): 自動スライシングは、トレーニングされたモデルが異常に実行する評価データのサブセットを特定することを目的としている。
これは、モデルデバッギングと比較において重要な役割を果たすとともに、公平性の問題の診断を行うため、本番環境での機械学習パイプラインにとって重要な問題である。
スライス可能な大きな検索スペースと拡大するデータ量のために、自動スライシングシステムにとってスケーラビリティは重要な要件となっている。
本稿では,分散メトリクス計算と仮説テストにより問題スライスを探索するスケーラブルなシステムAutoslicerを提案する。
我々はプルーニングと優先順位付けによって検索空間を削減できる効率的な戦略を開発する。
実験では,探索空間のごく一部を検査することで,異常なスライスの大部分を探索戦略が発見できることを示した。
関連論文リスト
- GEqO: ML-Accelerated Semantic Equivalence Detection [3.5521901508676774]
クラスタリソースの効率的な利用とジョブ実行時間の削減には,共通計算が不可欠だ。
大規模分析エンジンの等価性を検出するには、完全に自動化された効率的でスケーラブルなソリューションが必要である。
本稿では,大規模で意味論的に等価な計算を効率的に識別する,ポータブルで軽量な機械学習ベースのフレームワークであるGEqOを提案する。
論文 参考訳(メタデータ) (2024-01-02T16:37:42Z) - Auto-FP: An Experimental Study of Automated Feature Preprocessing for
Tabular Data [10.740391800262685]
機能前処理は、優れたモデル品質を保証するための重要なステップです。
大規模な検索スペースのため、ブルートフォースソリューションは違法に高価である。
我々は、Auto-FP問題を解決するために、様々なHPOおよびNASアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2023-10-04T02:46:44Z) - OutRank: Speeding up AutoML-based Model Search for Large Sparse Data
sets with Cardinality-aware Feature Ranking [0.0]
特徴量ランキングとデータ品質関連異常検出のためのシステムであるOutRankを紹介する。
提案したアプローチでは,AutoMLのみのアプローチに比べて最大300%大きな機能空間の探索が可能になる。
論文 参考訳(メタデータ) (2023-09-04T12:07:20Z) - DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning
over Tabular Data [12.416345241511781]
与えられたデータセットに対するデータ前処理パイプラインを自動かつ効率的に検索するDiffPrepを提案する。
実験の結果,DiffPrepは実世界の18のデータセットのうち15の精度で最高のテスト精度を達成できた。
論文 参考訳(メタデータ) (2023-08-20T23:40:26Z) - Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T05:45:05Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。