Fugu-MT 論文翻訳(概要): Improving Data Quality with Training Dynamics of Gradient Boosting Decision Trees

論文の概要: Improving Data Quality with Training Dynamics of Gradient Boosting Decision Trees

arxiv url: http://arxiv.org/abs/2210.11327v1
Date: Thu, 20 Oct 2022 15:02:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-21 13:57:30.947007
Title: Improving Data Quality with Training Dynamics of Gradient Boosting Decision Trees
Title（参考訳）: 勾配ブースティング決定木のトレーニングダイナミクスによるデータ品質の向上
Authors: Moacir Antonelli Ponti and Lucas de Angelis Oliveira and Juan Mart\'in Rom\'an and Luis Argerich
Abstract要約: 本稿では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスから算出したメトリクスに基づいて,トレーニング例の振る舞いを評価する手法を提案する。ノイズのあるラベルを検出し、それらを取り除くか、合成データセットと実際のデータセットにおけるモデルのメトリクスを改善するか、生産的なデータセットを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Real world datasets contain incorrectly labeled instances that hamper the performance of the model and, in particular, the ability to generalize out of distribution. Also, each example might have different contribution towards learning. This motivates studies to better understanding of the role of data instances with respect to their contribution in good metrics in models. In this paper we propose a method based on metrics computed from training dynamics of Gradient Boosting Decision Trees (GBDTs) to assess the behavior of each training example. We focus on datasets containing mostly tabular or structured data, for which the use of Decision Trees ensembles are still the state-of-the-art in terms of performance. We show results on detecting noisy labels in order to either remove them, improving models' metrics in synthetic and real datasets, as well as a productive dataset. Our methods achieved the best results overall when compared with confident learning and heuristics.
Abstract（参考訳）: 実世界のデータセットには、モデルのパフォーマンスを阻害する誤ったラベル付きインスタンスが含まれており、特に分布から一般化する能力がある。また、それぞれの例は学習に異なる貢献をするかもしれません。これは、モデルにおける良いメトリクスへの貢献に関して、データインスタンスの役割をよりよく理解するために研究を動機付ける。本稿では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスから算出したメトリクスに基づいて,各トレーニング例の振る舞いを評価する手法を提案する。我々は、主に表型データや構造化データを含むデータセットに注目し、意思決定木アンサンブルの使用は、パフォーマンスの面ではまだ最先端である。ノイズのあるラベルを検知して削除するか、合成データセットと実際のデータセットにおけるモデルのメトリクスを改善し、生産的なデータセットを表示する。我々の手法は、自信ある学習とヒューリスティックスと比較して総合的に最高の結果を得た。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-06-26T06:28:56Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
Contrastive and Variational Approaches in Self-Supervised Learning for Complex Data Mining [36.772769830368475]
本研究では,複雑なデータマイニングにおける自己教師あり学習手法の役割を,系統的な実験を通して分析した。その結果, モデルが異なるデータセットに対して高い適応性を示し, ラベルのないデータから高品質な特徴を効果的に抽出し, 分類精度を向上させることができた。
論文参考訳（メタデータ） (2025-04-05T02:55:44Z)
Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。非微分不可能な指標に適した影響スコア推定法を導出する。
論文参考訳（メタデータ） (2025-02-02T23:20:16Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文参考訳（メタデータ） (2024-04-10T14:05:44Z)
Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文参考訳（メタデータ） (2023-11-27T20:19:22Z)
Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。実験結果から,本手法は既存手法よりも一貫した改善が得られた。我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文参考訳（メタデータ） (2023-11-27T06:19:50Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文参考訳（メタデータ） (2023-03-26T14:49:37Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文参考訳（メタデータ） (2022-01-17T23:05:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。