論文の概要: StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics
- arxiv url: http://arxiv.org/abs/2005.01575v9
- Date: Thu, 18 Apr 2024 16:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-21 20:14:16.661632
- Title: StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics
- Title(参考訳): StackGenVis:パフォーマンスメトリクスを使用したスタックングアンサンブル学習のためのデータ、アルゴリズム、モデルのアライメント
- Authors: Angelos Chatzimparmpas, Rafael M. Martins, Kostiantyn Kucher, Andreas Kerren,
- Abstract要約: 機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。
StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
- 参考スコア(独自算出の注目度): 4.237343083490243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In machine learning (ML), ensemble methods such as bagging, boosting, and stacking are widely-established approaches that regularly achieve top-notch predictive performance. Stacking (also called "stacked generalization") is an ensemble method that combines heterogeneous base models, arranged in at least one layer, and then employs another metamodel to summarize the predictions of those models. Although it may be a highly-effective approach for increasing the predictive performance of ML, generating a stack of models from scratch can be a cumbersome trial-and-error process. This challenge stems from the enormous space of available solutions, with different sets of data instances and features that could be used for training, several algorithms to choose from, and instantiations of these algorithms using diverse parameters (i.e., models) that perform differently according to various metrics. In this work, we present a knowledge generation model, which supports ensemble learning with the use of visualization, and a visual analytics system for stacked generalization. Our system, StackGenVis, assists users in dynamically adapting performance metrics, managing data instances, selecting the most important features for a given data set, choosing a set of top-performant and diverse algorithms, and measuring the predictive performance. In consequence, our proposed tool helps users to decide between distinct models and to reduce the complexity of the resulting stack by removing overpromising and underperforming models. The applicability and effectiveness of StackGenVis are demonstrated with two use cases: a real-world healthcare data set and a collection of data related to sentiment/stance detection in texts. Finally, the tool has been evaluated through interviews with three ML experts.
- Abstract(参考訳): 機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されており、トップノートの予測性能を定期的に達成している。
スタック化(スタック一般化、stacked generalization)は、少なくとも一つの層に配置された異種基底モデルを組み合わせて、それらのモデルの予測を要約するために別のメタモデルを使用するアンサンブル法である。
これは、MLの予測性能を高めるための非常に効果的なアプローチかもしれないが、スクラッチからモデルのスタックを生成することは、面倒な試行錯誤プロセスである。
この課題は、トレーニングに使用できるさまざまなデータインスタンスと機能、選択するアルゴリズム、さまざまなパラメータ(モデルなど)を使用してこれらのアルゴリズムをインスタンス化するなど、利用可能なソリューションの膨大なスペースに起因している。
本研究では,可視化によるアンサンブル学習を支援する知識生成モデルと,積み重ね一般化のための視覚解析システムを提案する。
当社のシステムであるStackGenVisは、パフォーマンスメトリクスの動的適応、データインスタンスの管理、データセットの最も重要な機能の選択、トップパフォーマンスと多様なアルゴリズムのセットの選択、予測パフォーマンスの測定を支援する。
その結果,提案ツールにより,異なるモデルを決定するとともに,過剰生産モデルや過小評価モデルを取り除き,結果のスタックの複雑さを低減することができる。
StackGenVisの適用性と有効性は、2つのユースケースで実証されている。
最後に、このツールは3人のML専門家とのインタビューを通じて評価されている。
関連論文リスト
- Fitting Multiple Machine Learning Models with Performance Based Clustering [8.763425474439552]
従来の機械学習のアプローチは、データが単一の生成メカニズムから来ると仮定している。
本稿では,特徴値と対象値の関係に応じてデータをグループ化することで,この仮定を解消するクラスタリングフレームワークを提案する。
フレームワークをストリーミングデータを持つアプリケーションに拡張し、モデルのアンサンブルを使用して結果を生成する。
論文 参考訳(メタデータ) (2024-11-10T19:38:35Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Deciphering AutoML Ensembles: cattleia's Assistance in Decision-Making [0.0]
Cattleiaは、回帰、マルチクラス、バイナリ分類タスクのアンサンブルを解読するアプリケーションである。
Auto-Sklearn、AutoGluon、FLAMLという3つのAutoMLパッケージで構築されたモデルで動作する。
論文 参考訳(メタデータ) (2024-03-19T11:56:21Z) - MetaStackVis: Visually-Assisted Performance Evaluation of Metamodels [3.5229503563299915]
本稿では,メタStackVisと呼ばれる新しい可視化ツールを用いて,代替メタモデルがアンサンブルの積み重ね性能に与える影響について検討する。
我々のインタラクティブツールは、ユーザが予測可能な確率と複数のバリデーションメトリクスに応じて、異なる特異点とペアのメタモデルを視覚的に探索し、特定の問題のあるデータインスタンスを予測するのに役立つ。
論文 参考訳(メタデータ) (2022-12-07T09:38:02Z) - Context-Aware Ensemble Learning for Time Series [11.716677452529114]
本稿では,ベースモデルの特徴ベクトルの結合である特徴のスーパーセットを用いて,ベースモデル予測を効果的に組み合わせたメタ学習手法を提案する。
我々のモデルは、ベースモデルの予測を機械学習アルゴリズムの入力として使用するのではなく、問題の状態に基づいて各時点における最良の組み合わせを選択する。
論文 参考訳(メタデータ) (2022-11-30T10:36:13Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Optimal Ensemble Construction for Multi-Study Prediction with
Applications to COVID-19 Excess Mortality Estimation [7.02598981483736]
マルチスタディ・アンサンブルは、研究固有のモデルに適合し、アンサンブル重みを別々に推定する2段階戦略を用いる。
このアプローチは、モデル適合段階でのアンサンブル特性を無視し、効率を損なう可能性がある。
パンデミックの開始前にはほとんどデータが入手できない場合、他の国のデータを活用することで、予測精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-09-19T16:52:41Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。