論文の概要: Classification Tree Pruning Under Covariate Shift
- arxiv url: http://arxiv.org/abs/2305.04335v1
- Date: Sun, 7 May 2023 17:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 16:23:37.597202
- Title: Classification Tree Pruning Under Covariate Shift
- Title(参考訳): 共変量シフト下での分類木刈り
- Authors: Nicholas Galbraith and Samory Kpotufe
- Abstract要約: 分類木,すなわち,バイアスと分散のバランスをとるのに適した部分木を選択するという問題を考える。
このような状況下では、クロスバリデーションや他のペナル化変種が著しく不十分である場合に、最適なプルーニングを行うための最初の効率的な手順を提示する。
- 参考スコア(独自算出の注目度): 7.982668978293684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of \emph{pruning} a classification tree, that is,
selecting a suitable subtree that balances bias and variance, in common
situations with inhomogeneous training data. Namely, assuming access to mostly
data from a distribution $P_{X, Y}$, but little data from a desired
distribution $Q_{X, Y}$ with different $X$-marginals, we present the first
efficient procedure for optimal pruning in such situations, when
cross-validation and other penalized variants are grossly inadequate.
Optimality is derived with respect to a notion of \emph{average discrepancy}
$P_{X} \to Q_{X}$ (averaged over $X$ space) which significantly relaxes a
recent notion -- termed \emph{transfer-exponent} -- shown to tightly capture
the limits of classification under such a distribution shift. Our relaxed
notion can be viewed as a measure of \emph{relative dimension} between
distributions, as it relates to existing notions of information such as the
Minkowski and Renyi dimensions.
- Abstract(参考訳): 非均質なトレーニングデータと共通する状況において、偏りと分散のバランスをとる適切な部分木を選択するという分類木を \emph{pruning} の問題を考える。
すなわち, 分散$p_{x, y}$ からのほとんどデータへのアクセスを仮定するが, 所望の分散$q_{x, y}$ と異なる$x$-マージナルによるデータが少ない場合には, クロスバリデーションや他のペナルテッド変種が極めて不適切な場合に, 最適な刈り取りを行うための最初の効率的な手順を提案する。
最適性は \emph{average discrepancy} $p_{x} \to q_{x}$(平均で$x$空間)という概念で導出され、この分布シフトの下で分類の限界を厳密に捉えることが示されている。
我々の緩和された概念は、ミンコフスキー次元やレーニ次元のような既存の情報の概念に関係しているため、分布間の \emph{relative dimension} の尺度と見なすことができる。
関連論文リスト
- Gradual Domain Adaptation via Manifold-Constrained Distributionally Robust Optimization [0.4732176352681218]
本稿では、多様体制約データ分布のクラスにおける段階的領域適応の課題に対処する。
本稿では,適応的なワッサースタイン半径を持つ分布ロバスト最適化(DRO)を基礎とした手法を提案する。
我々のバウンダリは、新たに導入されたそれとの互換性尺度に依存しており、シーケンスに沿ったエラー伝搬のダイナミクスを完全に特徴付けています。
論文 参考訳(メタデータ) (2024-10-17T22:07:25Z) - Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Universal Batch Learning Under The Misspecification Setting [4.772817128620037]
ログロスを伴う不特定設定において、普遍的なエムバッチ学習の問題を考察する。
我々は、最適普遍学習者、データ生成分布の集合上の混合を導出し、min-max後悔を表す閉形式表現を得る。
論文 参考訳(メタデータ) (2024-05-12T11:16:05Z) - On Rate-Optimal Partitioning Classification from Observable and from
Privatised Data [0.0]
分割分類の古典的手法を再検討し, 緩和条件下での収束率について検討する。
プライバシー制約は、データ$(X_i$), dots,(X_n,Y_n)$を直接観察できないことを意味する。
特徴ベクトル$X_i$とラベル$Y_i$のすべての可能な位置の停止にLaplace分散ノイズを付加する。
論文 参考訳(メタデータ) (2023-12-22T18:07:18Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Distributed Sparse Regression via Penalization [5.990069843501885]
エージェントのネットワーク上の線形回帰を、(集中ノードを持たない)無向グラフとしてモデル化する。
推定問題は、局所的なLASSO損失関数の和とコンセンサス制約の2次ペナルティの最小化として定式化される。
本稿では, ペナル化問題に適用した近似勾配アルゴリズムが, 集中的な統計的誤差の順序の許容値まで線形に収束することを示す。
論文 参考訳(メタデータ) (2021-11-12T01:51:50Z) - Linear Optimal Transport Embedding: Provable Wasserstein classification
for certain rigid transformations and perturbations [79.23797234241471]
分布の区別は多くの科学分野において重要な問題である。
線形最適輸送(LOT)は分布の空間を$L2$-スペースに埋め込む。
複数の分布分類問題に対するLOTの利点を実証する。
論文 参考訳(メタデータ) (2020-08-20T19:09:33Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z) - Optimal Transport for Conditional Domain Matching and Label Shift [0.0]
一般化された目標シフトの設定の下では、教師なし領域適応の問題に対処する。
良い一般化のためには、境界分布とクラス条件分布の両方が領域間で整列する潜在表現を学ぶ必要がある。
本稿では、ソース領域における重み付き損失と、重み付き辺縁間のワッサーシュタイン距離を最小化する学習問題を提案する。
論文 参考訳(メタデータ) (2020-06-15T06:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。