論文の概要: Target Variable Engineering
- arxiv url: http://arxiv.org/abs/2310.09440v1
- Date: Fri, 13 Oct 2023 23:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 20:22:17.119340
- Title: Target Variable Engineering
- Title(参考訳): ターゲット変数エンジニアリング
- Authors: Jessica Clark
- Abstract要約: 数値的対象を予測するために訓練された回帰モデルの予測性能と、2項化対象を予測するために訓練された分類器を比較した。
回帰は最適性能に収束するためには、はるかに多くの計算作業を必要とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does the formulation of a target variable affect performance within the
ML pipeline? The experiments in this study examine numeric targets that have
been binarized by comparing against a threshold. We compare the predictive
performance of regression models trained to predict the numeric targets vs.
classifiers trained to predict their binarized counterparts. Specifically, we
make this comparison at every point of a randomized hyperparameter optimization
search to understand the effect of computational resource budget on the
tradeoff between the two. We find that regression requires significantly more
computational effort to converge upon the optimal performance, and is more
sensitive to both randomness and heuristic choices in the training process.
Although classification can and does benefit from systematic hyperparameter
tuning and model selection, the improvements are much less than for regression.
This work comprises the first systematic comparison of regression and
classification within the framework of computational resource requirements. Our
findings contribute to calls for greater replicability and efficiency within
the ML pipeline for the sake of building more sustainable and robust AI
systems.
- Abstract(参考訳): ターゲット変数の定式化はmlパイプラインのパフォーマンスにどのように影響するのか?
本研究では,しきい値との比較により二元化された数値的対象について検討した。
数値的目標を予測するために訓練された回帰モデルの予測性能と、二元化対象を予測するために訓練された分類器を比較した。
具体的には、ランダム化ハイパーパラメータ最適化探索の全ての点でこの比較を行い、計算資源予算が両者のトレードオフに与える影響を理解する。
回帰は最適性能に収束するためにははるかに多くの計算作業を必要としており、トレーニングプロセスにおけるランダムさとヒューリスティックな選択に敏感である。
分類は、体系的なハイパーパラメータチューニングとモデル選択の恩恵を受けることができるが、改善は回帰よりもはるかに少ない。
本研究は,計算資源要求の枠組みにおける回帰と分類の体系的比較である。
本研究は、より持続可能で堅牢なaiシステムを構築するため、mlパイプラインの再現性と効率性の向上に寄与する。
関連論文リスト
- Meta-Learning with Generalized Ridge Regression: High-dimensional Asymptotics, Optimality and Hyper-covariance Estimation [14.194212772887699]
本研究では,高次元ランダム効果線形モデルの枠組みにおけるメタラーニングについて考察する。
本研究では,データ次元がタスク毎のサンプル数に比例して大きくなる場合に,新しいテストタスクに対する予測リスクの正確な振る舞いを示す。
トレーニングタスクのデータに基づいて,逆回帰係数を推定する手法を提案し,解析する。
論文 参考訳(メタデータ) (2024-03-27T21:18:43Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。
我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。
AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文 参考訳(メタデータ) (2023-03-26T19:41:17Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Accounting for Variance in Machine Learning Benchmarks [37.922783300635864]
ある機械学習アルゴリズムAは、変化の源を越えて学習パイプラインを最適化する複数の試行を理想的に呼び出す。
これは非常に高価であり、コーナーは結論に達するために切断されます。
ベンチマークプロセス全体をモデル化し,データサンプリングによるばらつき,パラメータ初期化,ハイパーパラメータ選択の影響を明らかにした。
計算コストの51倍の削減で,不完全な推定器アプローチにより多くの変動源を加えることにより,理想推定器の精度が向上することを示す。
論文 参考訳(メタデータ) (2021-03-01T22:39:49Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z) - A Locally Adaptive Interpretable Regression [7.4267694612331905]
線形回帰は最も解釈可能な予測モデルの一つである。
本稿では,局所適応型解釈型回帰(LoAIR)を導入する。
我々のモデルは、他の最先端のベースラインと同等またはより良い予測性能を達成する。
論文 参考訳(メタデータ) (2020-05-07T09:26:14Z) - Gaussian Process Boosting [13.162429430481982]
ガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。
シミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。
論文 参考訳(メタデータ) (2020-04-06T13:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。