論文の概要: TRIAGE: Characterizing and auditing training data for improved
regression
- arxiv url: http://arxiv.org/abs/2310.18970v1
- Date: Sun, 29 Oct 2023 10:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:59:32.826933
- Title: TRIAGE: Characterizing and auditing training data for improved
regression
- Title(参考訳): TRIAGE:レグレッション改善のためのトレーニングデータの特徴付けと監査
- Authors: Nabeel Seedat, Jonathan Crabb\'e, Zhaozhi Qian, Mihaela van der Schaar
- Abstract要約: TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 80.11415390605215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality is crucial for robust machine learning algorithms, with the
recent interest in data-centric AI emphasizing the importance of training data
characterization. However, current data characterization methods are largely
focused on classification settings, with regression settings largely
understudied. To address this, we introduce TRIAGE, a novel data
characterization framework tailored to regression tasks and compatible with a
broad class of regressors. TRIAGE utilizes conformal predictive distributions
to provide a model-agnostic scoring method, the TRIAGE score. We operationalize
the score to analyze individual samples' training dynamics and characterize
samples as under-, over-, or well-estimated by the model. We show that TRIAGE's
characterization is consistent and highlight its utility to improve performance
via data sculpting/filtering, in multiple regression settings. Additionally,
beyond sample level, we show TRIAGE enables new approaches to dataset selection
and feature acquisition. Overall, TRIAGE highlights the value unlocked by data
characterization in real-world regression applications
- Abstract(参考訳): データ品質は堅牢な機械学習アルゴリズムにとって不可欠であり、最近のデータ中心のaiへの関心は、データキャラクタリゼーションのトレーニングの重要性を強調している。
しかし、現在のデータキャラクタリゼーション手法は、主に分類設定に焦点を当てており、回帰設定は概ね未検討である。
そこで我々は,レグレッシブタスクに対応し,幅広いレグレッシャクラスに対応する新しいデータキャラクタリゼーションフレームワークであるtriageを紹介する。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
本研究は,各サンプルのトレーニング動態を分析し,そのモデルにより過小評価されたサンプルを特徴付けるためのスコアを運用する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
さらに、サンプルレベルを超えて、triageがデータセットの選択と機能獲得に新たなアプローチを可能にすることを示す。
TRIAGEは、実世界のレグレッションアプリケーションでデータキャラクタリゼーションによって解放される価値を強調している
関連論文リスト
- Evaluating the Utility of GAN Generated Synthetic Tabular Data for Class
Balancing and Low Resource Settings [0.0]
この研究はクラスバランス実験に一般化線形モデル(GLM)アルゴリズムを用いた。
低リソース実験では、GAN合成データで強化されたデータに基づいてトレーニングされたモデルは、元のデータよりも優れたリコール値を示した。
論文 参考訳(メタデータ) (2023-06-24T10:27:08Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Variation-Incentive Loss Re-weighting for Regression Analysis on Biased
Data [8.115323786541078]
モデルトレーニング中のデータ歪/バイアスに対処することで回帰分析の精度を向上させることを目的としている。
回帰分析のための勾配降下モデルトレーニングを最適化するために,変分集中損失再重み付け法(VILoss)を提案する。
論文 参考訳(メタデータ) (2021-09-14T10:22:21Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - RENT -- Repeated Elastic Net Technique for Feature Selection [0.46180371154032895]
特徴選択のための繰り返し弾性ネット技術(RENT)を提案する。
RENTは、弾力性のあるネット正規化を備えた一般化線形モデルのアンサンブルを使用しており、それぞれがトレーニングデータの異なるサブセットに基づいて訓練されている。
RENTは、トレーニング中に予測が難しいデータ内のオブジェクトの識別に関するモデル解釈のための貴重な情報を提供する。
論文 参考訳(メタデータ) (2020-09-27T07:55:52Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。