論文の概要: Improving Data Quality with Training Dynamics of Gradient Boosting
Decision Trees
- arxiv url: http://arxiv.org/abs/2210.11327v2
- Date: Thu, 22 Feb 2024 20:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:58:33.718135
- Title: Improving Data Quality with Training Dynamics of Gradient Boosting
Decision Trees
- Title(参考訳): 勾配ブースティング決定木のトレーニングダイナミクスによるデータ品質の向上
- Authors: Moacir Antonelli Ponti and Lucas de Angelis Oliveira and Mathias
Esteban and Valentina Garcia and Juan Mart\'in Rom\'an and Luis Argerich
- Abstract要約: そこで本研究では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスを指標として,各トレーニング例の振る舞いを評価する手法を提案する。
提案手法を応用した業界事例では, 秩序なデータセットにおけるノイズラベルの検出, 合成および実際の公開データセットにおけるモデルのメトリクスの改善, および, 提案手法に基づくモデル展開の事例について述べる。
- 参考スコア(独自算出の注目度): 1.5605040219256345
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Real world datasets contain incorrectly labeled instances that hamper the
performance of the model and, in particular, the ability to generalize out of
distribution. Also, each example might have different contribution towards
learning. This motivates studies to better understanding of the role of data
instances with respect to their contribution in good metrics in models. In this
paper we propose a method based on metrics computed from training dynamics of
Gradient Boosting Decision Trees (GBDTs) to assess the behavior of each
training example. We focus on datasets containing mostly tabular or structured
data, for which the use of Decision Trees ensembles are still the
state-of-the-art in terms of performance. Our methods achieved the best results
overall when compared with confident learning, direct heuristics and a robust
boosting algorithm. We show results on detecting noisy labels in order clean
datasets, improving models' metrics in synthetic and real public datasets, as
well as on a industry case in which we deployed a model based on the proposed
solution.
- Abstract(参考訳): 実世界のデータセットには、モデルのパフォーマンスを阻害する誤ったラベル付きインスタンスが含まれており、特に分布から一般化する能力がある。
また、それぞれの例は学習に異なる貢献をするかもしれません。
これは、モデルにおける良いメトリクスへの貢献に関して、データインスタンスの役割をよりよく理解するために研究を動機付ける。
本稿では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスから算出したメトリクスに基づいて,各トレーニング例の振る舞いを評価する手法を提案する。
我々は、主に表型データや構造化データを含むデータセットに注目し、意思決定木アンサンブルの使用は、パフォーマンスの面ではまだ最先端である。
提案手法は,信頼性学習,直接ヒューリスティックス,頑健なブースティングアルゴリズムと比較して総合的に最高の結果を得た。
提案手法をベースとしたモデルを展開する産業ケースにおいて, 秩序あるクリーンデータセットにおけるノイズラベルの検出, 合成および実際の公開データセットにおけるモデルのメトリクスの改善, 結果を示す。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文 参考訳(メタデータ) (2023-03-26T14:49:37Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。