論文の概要: Utilizing Data Fingerprints for Privacy-Preserving Algorithm Selection in Time Series Classification: Performance and Uncertainty Estimation on Unseen Datasets
- arxiv url: http://arxiv.org/abs/2409.08636v2
- Date: Mon, 30 Sep 2024 21:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 21:20:36.239756
- Title: Utilizing Data Fingerprints for Privacy-Preserving Algorithm Selection in Time Series Classification: Performance and Uncertainty Estimation on Unseen Datasets
- Title(参考訳): 時系列分類におけるプライバシ保護アルゴリズム選択のためのデータフィンガープリントの利用:未確認データセットの性能と不確かさ推定
- Authors: Lars Böcking, Leopold Müller, Niklas Kühl,
- Abstract要約: プライバシ保存方式で時系列分類データセットを記述した新しいデータフィンガープリントを導入する。
マルチターゲット回帰問題を分解することにより、アルゴリズムの性能と不確実性を推定するために、我々のデータフィンガープリントのみが使用される。
我々のアプローチは、カリフォルニア大学リバーサイドベンチマークデータセット112で評価されている。
- 参考スコア(独自算出の注目度): 4.2193475197905705
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The selection of algorithms is a crucial step in designing AI services for real-world time series classification use cases. Traditional methods such as neural architecture search, automated machine learning, combined algorithm selection, and hyperparameter optimizations are effective but require considerable computational resources and necessitate access to all data points to run their optimizations. In this work, we introduce a novel data fingerprint that describes any time series classification dataset in a privacy-preserving manner and provides insight into the algorithm selection problem without requiring training on the (unseen) dataset. By decomposing the multi-target regression problem, only our data fingerprints are used to estimate algorithm performance and uncertainty in a scalable and adaptable manner. Our approach is evaluated on the 112 University of California riverside benchmark datasets, demonstrating its effectiveness in predicting the performance of 35 state-of-the-art algorithms and providing valuable insights for effective algorithm selection in time series classification service systems, improving a naive baseline by 7.32% on average in estimating the mean performance and 15.81% in estimating the uncertainty.
- Abstract(参考訳): アルゴリズムの選択は、実世界の時系列分類ユースケースのためにAIサービスを設計する上で重要なステップである。
ニューラルネットワーク探索、自動機械学習、組み合わせアルゴリズムの選択、ハイパーパラメータ最適化といった従来の手法は効果的だが、膨大な計算資源が必要であり、最適化を実行するにはすべてのデータポイントにアクセスする必要がある。
本研究では,任意の時系列分類データセットをプライバシ保護方式で記述し,(目に見えない)データセットのトレーニングを必要とせずにアルゴリズム選択問題に対する洞察を提供する新しいデータ指紋を提案する。
マルチターゲット回帰問題を分解することにより、我々のデータフィンガープリントのみが、スケーラブルで適応可能な方法でアルゴリズムの性能と不確実性を推定するために使用される。
提案手法はカリフォルニア大学リバーサイドベンチマークデータセット112を用いて評価され,35の最先端アルゴリズムの性能予測と時系列分類サービスシステムにおける効果的なアルゴリズム選択のための有用な洞察の提供,平均性能推定における平均ベースラインの7.32%,不確実性推定における15.81%の改善を実証した。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Analyzing the Capabilities of Nature-inspired Feature Selection
Algorithms in Predicting Student Performance [0.0]
本稿では,学生のパフォーマンス予測に使用するアンサンブルアルゴリズムの特徴選択部分において,自然に触発されたアルゴリズムの相対的性能について分析を行った。
その結果,自然に着想を得たアルゴリズムを特徴選択に利用し,従来のMLアルゴリズムを分類に利用することで,予測精度が向上し,特徴セットのサイズを最大65%削減できることがわかった。
論文 参考訳(メタデータ) (2023-08-15T21:18:52Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Fair Feature Subset Selection using Multiobjective Genetic Algorithm [0.0]
フェアネスと精度を両立させる特徴部分選択手法を提案する。
モデル性能の指標としてF1-Scoreを用いる。
最も一般的なフェアネスベンチマークデータセットの実験では、進化的アルゴリズムを用いることで、フェアネスと精度のトレードオフを効果的に探索できることが示されている。
論文 参考訳(メタデータ) (2022-04-30T22:51:19Z) - Early Time-Series Classification Algorithms: An Empirical Comparison [59.82930053437851]
早期時系列分類(Early Time-Series Classification, ETSC)は、できるだけ少ない測定で時系列のクラスを予測するタスクである。
既存のETSCアルゴリズムを公開データと,新たに導入された2つのデータセットで評価した。
論文 参考訳(メタデータ) (2022-03-03T10:43:56Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Automatic selection of clustering algorithms using supervised graph
embedding [14.853602181549967]
MARCO-GEはクラスタリングアルゴリズムの自動推奨のための新しいメタラーニング手法である。
ランキングメタモデルをトレーニングし、新しいデータセットとクラスタリング評価尺度の上位パフォーマンスアルゴリズムを正確に推奨する。
論文 参考訳(メタデータ) (2020-11-16T19:13:20Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。