論文の概要: Asymptotic Normality of Infinite Centered Random Forests -Application to Imbalanced Classification
- arxiv url: http://arxiv.org/abs/2506.08548v1
- Date: Tue, 10 Jun 2025 08:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.868625
- Title: Asymptotic Normality of Infinite Centered Random Forests -Application to Imbalanced Classification
- Title(参考訳): 無限中心ランダム林の漸近正規性 -不均衡分類への応用-
- Authors: Moria Mayala, Erwan Scornet, Charles Tillier, Olivier Wintenberger,
- Abstract要約: 本稿では,CRF(Centered Random Forests)の分類法について理論的に検討する。
我々は、再バランスデータセットでトレーニングされたCRFがバイアスを示し、適切な手法で除去できることを証明した。
そこで本研究では,IS-ICRF推定器が元のデータに基づいてトレーニングしたICRFと比較して,ばらつきを低減できることを実証した。
- 参考スコア(独自算出の注目度): 6.5160087003642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many classification tasks involve imbalanced data, in which a class is largely underrepresented. Several techniques consists in creating a rebalanced dataset on which a classifier is trained. In this paper, we study theoretically such a procedure, when the classifier is a Centered Random Forests (CRF). We establish a Central Limit Theorem (CLT) on the infinite CRF with explicit rates and exact constant. We then prove that the CRF trained on the rebalanced dataset exhibits a bias, which can be removed with appropriate techniques. Based on an importance sampling (IS) approach, the resulting debiased estimator, called IS-ICRF, satisfies a CLT centered at the prediction function value. For high imbalance settings, we prove that the IS-ICRF estimator enjoys a variance reduction compared to the ICRF trained on the original data. Therefore, our theoretical analysis highlights the benefits of training random forests on a rebalanced dataset (followed by a debiasing procedure) compared to using the original data. Our theoretical results, especially the variance rates and the variance reduction, appear to be valid for Breiman's random forests in our experiments.
- Abstract(参考訳): 多くの分類タスクは、クラスがほとんど表現されていない不均衡なデータを含む。
いくつかのテクニックは、分類器を訓練するバランスのとれたデータセットを作成することである。
本稿では,分類者がCRF(Centered Random Forests)である場合,理論的にそのような手順を考察する。
無限 CRF 上の中心極限定理 (Central Limit Theorem, CLT) を明示的な速度と正確な定数で確立する。
次に、再均衡データセットでトレーニングされたCRFがバイアスを示し、適切な手法で除去できることを示す。
重要サンプリング(IS)アプローチに基づいて、結果の偏差推定器IS-ICRFは、予測関数値を中心としたCLTを満たす。
そこで本研究では,IS-ICRF推定器が元のデータに基づいてトレーニングしたICRFと比較して,ばらつきを低減できることを実証した。
そこで,本理論解析では,原データを用いた場合と比較して,再バランスデータセット(脱バイアス手順で追従する)上でランダム林をトレーニングする利点を強調した。
我々の理論的結果、特にばらつき率とばらつきの低減は、我々の実験でブレイマンのランダムな森林に有効であるように思われる。
関連論文リスト
- The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing [85.85160896547698]
ディープニューラルネットワークの現実的な応用は、ノイズの多い入力や敵攻撃に直面した場合、その不安定な予測によって妨げられる。
入力にノイズ注入を頼りに、認証された半径を持つ効率的な分類器を設計する方法を示す。
新たな認証手法により、ランダムな平滑化による事前学習モデルの使用が可能となり、ゼロショット方式で現在の認証半径を効果的に改善できる。
論文 参考訳(メタデータ) (2023-09-28T22:41:47Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - Adaptive Dimension Reduction and Variational Inference for Transductive
Few-Shot Classification [2.922007656878633]
適応次元の削減によりさらに改善された変分ベイズ推定に基づく新しいクラスタリング法を提案する。
提案手法は,Few-Shotベンチマークにおける現実的非バランスなトランスダクティブ設定の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-09-18T10:29:02Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Cross-Domain Empirical Risk Minimization for Unbiased Long-tailed
Classification [90.17537630880305]
従来の長い尾の分類法では見過ごされがちな不偏見に対処する。
バイアスのないモデルをトレーニングするためのクロスドメイン経験的リスク最小化(xERM)を提案する。
論文 参考訳(メタデータ) (2021-12-29T03:18:47Z) - Robust Neural Network Classification via Double Regularization [2.41710192205034]
本稿では、分類モデルの複雑さに対するペナルティと、学習観察の最適な再重み付けを組み合わせた、ニューラルネットワークトレーニング損失の新しい二重正則化を提案する。
我々は, (i) MNIST と (ii) CIFAR-10 のニューラルネット分類のための DRFit について, 両者の相違点について実証した。
論文 参考訳(メタデータ) (2021-12-15T13:19:20Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - RB-CCR: Radial-Based Combined Cleaning and Resampling algorithm for
imbalanced data classification [5.448684866061922]
トレーニングデータのサンプル化は、不均衡バイナリデータの分類性能を改善するための標準的なアプローチである。
RB-CCRはクラスポテンシャルを利用して、合成オーバーサンプリングのためのデータ空間のサブリージョンを正確に見つける。
以上の結果から,RB-CCRはCCRよりも精度の高いリコールトレードオフを実現し,AUC や G-mean といった最先端のリサンプリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-05-09T19:47:45Z) - Estimation and Applications of Quantiles in Deep Binary Classification [0.0]
チェック損失に基づく量子回帰は統計学において広く使われている推論パラダイムである。
二項分類設定におけるチェック損失の類似について考察する。
我々は、予測が信頼できるかどうかを判断するために使用できる個別信頼度スコアを開発する。
論文 参考訳(メタデータ) (2021-02-09T07:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。