論文の概要: Improving Data Quality with Training Dynamics of Gradient Boosting
Decision Trees
- arxiv url: http://arxiv.org/abs/2210.11327v1
- Date: Thu, 20 Oct 2022 15:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:57:30.947007
- Title: Improving Data Quality with Training Dynamics of Gradient Boosting
Decision Trees
- Title(参考訳): 勾配ブースティング決定木のトレーニングダイナミクスによるデータ品質の向上
- Authors: Moacir Antonelli Ponti and Lucas de Angelis Oliveira and Juan Mart\'in
Rom\'an and Luis Argerich
- Abstract要約: 本稿では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスから算出したメトリクスに基づいて,トレーニング例の振る舞いを評価する手法を提案する。
ノイズのあるラベルを検出し、それらを取り除くか、合成データセットと実際のデータセットにおけるモデルのメトリクスを改善するか、生産的なデータセットを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Real world datasets contain incorrectly labeled instances that hamper the
performance of the model and, in particular, the ability to generalize out of
distribution. Also, each example might have different contribution towards
learning. This motivates studies to better understanding of the role of data
instances with respect to their contribution in good metrics in models. In this
paper we propose a method based on metrics computed from training dynamics of
Gradient Boosting Decision Trees (GBDTs) to assess the behavior of each
training example. We focus on datasets containing mostly tabular or structured
data, for which the use of Decision Trees ensembles are still the
state-of-the-art in terms of performance. We show results on detecting noisy
labels in order to either remove them, improving models' metrics in synthetic
and real datasets, as well as a productive dataset. Our methods achieved the
best results overall when compared with confident learning and heuristics.
- Abstract(参考訳): 実世界のデータセットには、モデルのパフォーマンスを阻害する誤ったラベル付きインスタンスが含まれており、特に分布から一般化する能力がある。
また、それぞれの例は学習に異なる貢献をするかもしれません。
これは、モデルにおける良いメトリクスへの貢献に関して、データインスタンスの役割をよりよく理解するために研究を動機付ける。
本稿では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスから算出したメトリクスに基づいて,各トレーニング例の振る舞いを評価する手法を提案する。
我々は、主に表型データや構造化データを含むデータセットに注目し、意思決定木アンサンブルの使用は、パフォーマンスの面ではまだ最先端である。
ノイズのあるラベルを検知して削除するか、合成データセットと実際のデータセットにおけるモデルのメトリクスを改善し、生産的なデータセットを表示する。
我々の手法は、自信ある学習とヒューリスティックスと比較して総合的に最高の結果を得た。
関連論文リスト
- Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文 参考訳(メタデータ) (2023-03-26T14:49:37Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。