論文の概要: Model Optimization in Imbalanced Regression
- arxiv url: http://arxiv.org/abs/2206.09991v1
- Date: Mon, 20 Jun 2022 20:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 13:24:35.388723
- Title: Model Optimization in Imbalanced Regression
- Title(参考訳): 不均衡回帰におけるモデル最適化
- Authors: An\'ibal Silva, Rita P. Ribeiro, and Nuno Moniz
- Abstract要約: 不均衡なドメイン学習は、あまり表現されていないがドメインにとって最も重要であるインスタンスを予測するための正確なモデルを作成することを目的としている。
主な理由の1つは、極端な(まれな)値の誤差を最小限に抑えることができる損失関数の欠如である。
最近、評価指標が導入された: 正方形誤差関連領域(SERA)
このメトリクスは、極端な値で犯したエラーに重点を置いていると同時に、ターゲット変数全体のパフォーマンスも考慮している。
- 参考スコア(独自算出の注目度): 2.580765958706854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imbalanced domain learning aims to produce accurate models in predicting
instances that, though underrepresented, are of utmost importance for the
domain. Research in this field has been mainly focused on classification tasks.
Comparatively, the number of studies carried out in the context of regression
tasks is negligible. One of the main reasons for this is the lack of loss
functions capable of focusing on minimizing the errors of extreme (rare)
values. Recently, an evaluation metric was introduced: Squared Error Relevance
Area (SERA). This metric posits a bigger emphasis on the errors committed at
extreme values while also accounting for the performance in the overall target
variable domain, thus preventing severe bias. However, its effectiveness as an
optimization metric is unknown. In this paper, our goal is to study the impacts
of using SERA as an optimization criterion in imbalanced regression tasks.
Using gradient boosting algorithms as proof of concept, we perform an
experimental study with 36 data sets of different domains and sizes. Results
show that models that used SERA as an objective function are practically better
than the models produced by their respective standard boosting algorithms at
the prediction of extreme values. This confirms that SERA can be embedded as a
loss function into optimization-based learning algorithms for imbalanced
regression scenarios.
- Abstract(参考訳): 不均衡なドメイン学習は、あまり表現されていないがドメインにとって最も重要なインスタンスを予測するための正確なモデルを作成することを目的としている。
この分野の研究は、主に分類タスクに焦点を当てている。
相対的に回帰タスクの文脈で実施される研究の数は無視できる。
この主な理由の1つは、極端(rare)値の誤差を最小化することに集中できる損失関数の欠如である。
近年, 正方形誤差関連領域 (SERA) の評価指標が導入された。
このメトリクスは、極端な値で行われるエラーに重点を置くと同時に、ターゲット変数ドメイン全体のパフォーマンスも考慮し、重大なバイアスを防止している。
しかし、最適化指標としての有効性は不明である。
本稿では,SERAを不均衡回帰タスクにおける最適化基準として用いることの影響について検討する。
勾配ブースティングアルゴリズムを概念実証として,36個の異なる領域と大きさのデータセットを用いて実験を行った。
その結果、目的関数としてセラを用いたモデルは、それぞれの標準ブースティングアルゴリズムによって生成された極値予測モデルよりも実質的に優れていることがわかった。
これにより、SERAは不均衡回帰シナリオの最適化に基づく学習アルゴリズムに損失関数として組み込むことができる。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Automatic debiasing of neural networks via moment-constrained learning [0.0]
偏差推定器の回帰関数をネーティブに学習し,対象関数のサンプル平均値を取得する。
本稿では,自動脱バイアスの欠点に対処する新しいRR学習手法として,モーメント制約学習を提案する。
論文 参考訳(メタデータ) (2024-09-29T20:56:54Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Target Variable Engineering [0.0]
数値的対象を予測するために訓練された回帰モデルの予測性能と、2項化対象を予測するために訓練された分類器を比較した。
回帰は最適性能に収束するためには、はるかに多くの計算作業を必要とする。
論文 参考訳(メタデータ) (2023-10-13T23:12:21Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - A Computational Exploration of Emerging Methods of Variable Importance
Estimation [0.0]
変数の重要性を推定することは、現代の機械学習において必須のタスクである。
本稿では,変数重要度推定の新しい手法の計算的および理論的検討を提案する。
この結果から,PERFは相関性の高いデータでは最高の性能を示した。
論文 参考訳(メタデータ) (2022-08-05T20:00:56Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。