論文の概要: OutRank: Speeding up AutoML-based Model Search for Large Sparse Data
sets with Cardinality-aware Feature Ranking
- arxiv url: http://arxiv.org/abs/2309.01552v1
- Date: Mon, 4 Sep 2023 12:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 18:41:07.732085
- Title: OutRank: Speeding up AutoML-based Model Search for Large Sparse Data
sets with Cardinality-aware Feature Ranking
- Title(参考訳): OutRank: カーディナリティを意識した大規模スパースデータセットを対象としたAutoMLベースのモデル検索の高速化
- Authors: Bla\v{z} \v{S}krlj and Bla\v{z} Mramor
- Abstract要約: 特徴量ランキングとデータ品質関連異常検出のためのシステムであるOutRankを紹介する。
提案したアプローチでは,AutoMLのみのアプローチに比べて最大300%大きな機能空間の探索が可能になる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of modern recommender systems relies on understanding which parts
of the feature space are relevant for solving a given recommendation task.
However, real-world data sets in this domain are often characterized by their
large size, sparsity, and noise, making it challenging to identify meaningful
signals. Feature ranking represents an efficient branch of algorithms that can
help address these challenges by identifying the most informative features and
facilitating the automated search for more compact and better-performing models
(AutoML). We introduce OutRank, a system for versatile feature ranking and data
quality-related anomaly detection. OutRank was built with categorical data in
mind, utilizing a variant of mutual information that is normalized with regard
to the noise produced by features of the same cardinality. We further extend
the similarity measure by incorporating information on feature similarity and
combined relevance. The proposed approach's feasibility is demonstrated by
speeding up the state-of-the-art AutoML system on a synthetic data set with no
performance loss. Furthermore, we considered a real-life click-through-rate
prediction data set where it outperformed strong baselines such as random
forest-based approaches. The proposed approach enables exploration of up to
300% larger feature spaces compared to AutoML-only approaches, enabling faster
search for better models on off-the-shelf hardware.
- Abstract(参考訳): 現代のレコメンダシステムの設計は、特定のレコメンデーションタスクを解決するために機能空間のどの部分が関連しているかを理解することに依存している。
しかし、この領域の現実世界のデータセットは、しばしば大きなサイズ、スパーシティ、ノイズによって特徴づけられ、有意義な信号を特定するのが困難である。
機能ランキングは、最も情報性の高い機能を特定し、よりコンパクトでパフォーマンスの良いモデル(AutoML)の自動検索を容易にすることで、これらの課題に対処するアルゴリズムの効率的なブランチである。
特徴量ランキングとデータ品質関連異常検出のためのシステムであるOutRankを紹介する。
OutRankは分類データを念頭に置いて構築され、同じ濃度の特徴によって生じる雑音に関して正規化される相互情報の変種を利用する。
特徴類似度情報と組み合わせた関連性を組み込むことで類似度尺度をさらに拡張する。
提案手法は, 性能損失のない合成データセット上で, 最先端のAutoMLシステムを高速化することで実現可能であることを示す。
さらに,無作為な森林ベースのアプローチなど,強いベースラインを上回り,実際のクリックスルーレート予測データセットを検討した。
提案手法により,AutoMLのみのアプローチと比較して最大300%大きな機能空間の探索が可能になった。
関連論文リスト
- The Impacts of Data, Ordering, and Intrinsic Dimensionality on Recall in Hierarchical Navigable Small Worlds [0.09208007322096533]
調査は、HNSWがデータセットのスペクトルにわたって有効であることに焦点を当てている。
我々は、KN(K Nearest Neighbours)探索と比較して、近似HNSW探索のリコールが、ベクトル空間の固有次元と結びついていることを発見した。
一般的なベンチマークデータセットをKNNの代わりにHNSWで実行することで、いくつかのモデルではランキングを最大3ポジションシフトすることができる。
論文 参考訳(メタデータ) (2024-05-28T04:16:43Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Auto-FP: An Experimental Study of Automated Feature Preprocessing for
Tabular Data [10.740391800262685]
機能前処理は、優れたモデル品質を保証するための重要なステップです。
大規模な検索スペースのため、ブルートフォースソリューションは違法に高価である。
我々は、Auto-FP問題を解決するために、様々なHPOおよびNASアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2023-10-04T02:46:44Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Automated classification of pre-defined movement patterns: A comparison
between GNSS and UWB technology [55.41644538483948]
リアルタイム位置情報システム(RTLS)は、人間の動きパターンからデータを収集することができる。
本研究の目的は、小さな領域における人間の動きパターンを分類する自動化された枠組みを設計し、評価することである。
論文 参考訳(メタデータ) (2023-03-10T14:46:42Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Self-service Data Classification Using Interactive Visualization and
Interpretable Machine Learning [9.13755431537592]
Iterative Visual Logical (IVLC) は、解釈可能な機械学習アルゴリズムである。
IVLCは、医療領域における癌データのような機密で重要なデータを扱う際に特に有用である。
この章では、新しいコーディネートオーダー(COO)アルゴリズムと遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
論文 参考訳(メタデータ) (2021-07-11T05:39:14Z) - Large Scale Autonomous Driving Scenarios Clustering with Self-supervised
Feature Extraction [6.804209932400134]
本稿では,自動車運転データの大規模集合に対する包括的データクラスタリングフレームワークを提案する。
提案手法では,トラヒック内エージェントオブジェクトとマップ情報の両方を含むトラフィック要素を網羅的に検討する。
新たに設計されたデータクラスタリング評価メトリクスは、データ拡張に基づくものであるため、精度評価には人間のラベル付きデータセットは必要ない。
論文 参考訳(メタデータ) (2021-03-30T06:22:40Z) - Dual Adversarial Auto-Encoders for Clustering [152.84443014554745]
教師なしクラスタリングのためのDual-AAE(Dual-AAE)を提案する。
Dual-AAEの目的関数に対する変分推論を行うことで,一対のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。
4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-23T13:16:34Z) - ARDA: Automatic Relational Data Augmentation for Machine Learning [23.570173866941612]
本稿では,データセットとデータレポジトリを入力とし,拡張データセットを出力するエンド・ツー・エンドシステムを提案する。
本システムは,(1)入力の様々な属性に基づいて,入力データとデータを検索し結合するフレームワークと,(2)入力データからノイズや不適切な特徴を抽出する効率的な特徴選択アルゴリズムの2つの特徴を有する。
論文 参考訳(メタデータ) (2020-03-21T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。