論文の概要: TRIAGE: Characterizing and auditing training data for improved
regression
- arxiv url: http://arxiv.org/abs/2310.18970v1
- Date: Sun, 29 Oct 2023 10:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:59:32.826933
- Title: TRIAGE: Characterizing and auditing training data for improved
regression
- Title(参考訳): TRIAGE:レグレッション改善のためのトレーニングデータの特徴付けと監査
- Authors: Nabeel Seedat, Jonathan Crabb\'e, Zhaozhi Qian, Mihaela van der Schaar
- Abstract要約: TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 80.11415390605215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality is crucial for robust machine learning algorithms, with the
recent interest in data-centric AI emphasizing the importance of training data
characterization. However, current data characterization methods are largely
focused on classification settings, with regression settings largely
understudied. To address this, we introduce TRIAGE, a novel data
characterization framework tailored to regression tasks and compatible with a
broad class of regressors. TRIAGE utilizes conformal predictive distributions
to provide a model-agnostic scoring method, the TRIAGE score. We operationalize
the score to analyze individual samples' training dynamics and characterize
samples as under-, over-, or well-estimated by the model. We show that TRIAGE's
characterization is consistent and highlight its utility to improve performance
via data sculpting/filtering, in multiple regression settings. Additionally,
beyond sample level, we show TRIAGE enables new approaches to dataset selection
and feature acquisition. Overall, TRIAGE highlights the value unlocked by data
characterization in real-world regression applications
- Abstract(参考訳): データ品質は堅牢な機械学習アルゴリズムにとって不可欠であり、最近のデータ中心のaiへの関心は、データキャラクタリゼーションのトレーニングの重要性を強調している。
しかし、現在のデータキャラクタリゼーション手法は、主に分類設定に焦点を当てており、回帰設定は概ね未検討である。
そこで我々は,レグレッシブタスクに対応し,幅広いレグレッシャクラスに対応する新しいデータキャラクタリゼーションフレームワークであるtriageを紹介する。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
本研究は,各サンプルのトレーニング動態を分析し,そのモデルにより過小評価されたサンプルを特徴付けるためのスコアを運用する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
さらに、サンプルレベルを超えて、triageがデータセットの選択と機能獲得に新たなアプローチを可能にすることを示す。
TRIAGEは、実世界のレグレッションアプリケーションでデータキャラクタリゼーションによって解放される価値を強調している
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Targeted synthetic data generation for tabular data via hardness characterization [0.0]
本稿では,高価値な学習点のみを生成する新しい拡張パイプラインを提案する。
シミュレーションデータおよび大規模信用デフォルト予測タスクにおいて、最も困難な点で訓練された合成データ生成装置が、非ターゲットデータ拡張よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T14:54:26Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。
提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。
適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文 参考訳(メタデータ) (2023-12-12T19:23:54Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Variation-Incentive Loss Re-weighting for Regression Analysis on Biased
Data [8.115323786541078]
モデルトレーニング中のデータ歪/バイアスに対処することで回帰分析の精度を向上させることを目的としている。
回帰分析のための勾配降下モデルトレーニングを最適化するために,変分集中損失再重み付け法(VILoss)を提案する。
論文 参考訳(メタデータ) (2021-09-14T10:22:21Z) - RENT -- Repeated Elastic Net Technique for Feature Selection [0.46180371154032895]
特徴選択のための繰り返し弾性ネット技術(RENT)を提案する。
RENTは、弾力性のあるネット正規化を備えた一般化線形モデルのアンサンブルを使用しており、それぞれがトレーニングデータの異なるサブセットに基づいて訓練されている。
RENTは、トレーニング中に予測が難しいデータ内のオブジェクトの識別に関するモデル解釈のための貴重な情報を提供する。
論文 参考訳(メタデータ) (2020-09-27T07:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。