論文の概要: Decomposing Observational Multiplicity in Decision Trees: Leaf and Structural Regret
- arxiv url: http://arxiv.org/abs/2603.11701v1
- Date: Thu, 12 Mar 2026 09:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.985081
- Title: Decomposing Observational Multiplicity in Decision Trees: Leaf and Structural Regret
- Title(参考訳): 決定木における観測多重度分解:葉と構造レグレクト
- Authors: Mustafa Cavus,
- Abstract要約: 決定木分類器に対する観察的多重性の相補的概念を2つ導入する。
葉の遺残は、有限サンプルノイズによる固定葉内の予測の本質的な変動を定量化するとともに、構造的遺残は、学習木構造自体の不安定性によって引き起こされる変動をキャプチャする。
構造的後悔は観察的多重性の主要な要因であり、一部のデータセットでは葉の後悔の変動の15倍以上であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine learning tasks admit multiple models that perform almost equally well, a phenomenon known as predictive multiplicity. A fundamental source of this multiplicity is observational multiplicity, which arises from the stochastic nature of label collection: observed training labels represent only a single realization of the underlying ground-truth probabilities. While theoretical frameworks for observational multiplicity have been established for logistic regression, their implications for non-smooth, partition-based models like decision trees remain underexplored. In this paper, we introduce two complementary notions of observational multiplicity for decision tree classifiers: leaf regret and structural regret. Leaf regret quantifies the intrinsic variability of predictions within a fixed leaf due to finite-sample noise, while structural regret captures variability induced by the instability of the learned tree structure itself. We provide a formal decomposition of observational multiplicity into these two components and establish statistical guarantees. Our experimental evaluation across diverse credit risk scoring datasets confirms the near-perfect alignment between our theoretical decomposition and the empirically observed variance. Notably, we find that structural regret is the primary driver of observational multiplicity, accounting for over 15 times the variability of leaf regret in some datasets. Furthermore, we demonstrate that utilizing these regret measures as an abstention mechanism in selective prediction can effectively identify arbitrary regions and improve model safety, elevating recall from 92% to 100% on the most stable sub-populations. These results establish a rigorous framework for quantifying observational multiplicity, aligning with recent advances in algorithmic safety and interpretability.
- Abstract(参考訳): 多くの機械学習タスクは、予測多重性(predictive multiplicity)として知られる、ほぼ同等に機能する複数のモデルを受け入れている。
この多重性の根源は観測的多重性であり、これはラベル収集の確率的性質から生じる。
観測的多重度の理論的枠組みは、ロジスティック回帰のために確立されているが、決定木のような非滑らかな分割モデルに対するその意味は未解明のままである。
本稿では,決定木分類器に対する観察的多重性の相補的概念として,葉の後悔と構造的後悔の2つを紹介する。
葉の遺残は、有限サンプルノイズによる固定葉内の予測の本質的な変動を定量化するとともに、構造的遺残は、学習木構造自体の不安定性によって引き起こされる変動をキャプチャする。
これら2つの成分に観測多重性を公式に分解し,統計的保証を確立する。
種々の信用リスク評価データセットを対象とした実験により,理論的分解と経験的に観察された分散のほぼ完全な一致が確認された。
特に、構造的後悔が観察的多重性の第一の要因であり、一部のデータセットでは葉の後悔の変動の15倍以上であることがわかった。
さらに, 任意の領域を効果的に同定し, モデル安全性を向上し, 最も安定なサブ集団においてリコール率を92%から100%に向上させることを実証した。
これらの結果は、アルゴリズムの安全性と解釈可能性の最近の進歩に合わせて、観測的多重度を定量化するための厳密な枠組みを確立する。
関連論文リスト
- Mitigating the Multiplicity Burden: The Role of Calibration in Reducing Predictive Multiplicity of Classifiers [0.0]
本稿では,分類校正と予測乗算の相互作用について検討する。
マイノリティクラスの観察は、不均等な多種多様性の重荷を負う。
ポストホックキャリブレーション法の適用は、ラショモン集合全体の低視認性と関連している。
論文 参考訳(メタデータ) (2026-03-12T09:54:07Z) - Random Forests as Statistical Procedures: Design, Variance, and Dependence [0.0]
本研究では,各木が明示的ランダム化条件付き回帰関数であるランダム林の有限サンプル設計型定式化を開発する。
この観点は、有限集約変数を構造的依存項から分離する森林予測器に対して正確な分散恒等性をもたらす。
結果として得られたフレームワークは、リサンプリング、特徴レベルのランダム化、分割選択が解決、木の多様性、依存をどのように管理するかを明確にする。
論文 参考訳(メタデータ) (2026-02-13T17:08:43Z) - Benchmarking Corruption Robustness of LVLMs: A Discriminative Benchmark and Robustness Alignment Metric [49.393713730706445]
汚損の堅牢性を評価するための識別サンプルを強調したベンチマークであるBench-Cを紹介する。
本稿では,ロバストネスアライメントスコア(RAS)を提案する。
論文 参考訳(メタデータ) (2025-11-24T12:07:56Z) - Identification of Causal Direction under an Arbitrary Number of Latent Confounders [54.76982125821112]
実世界のシナリオでは、観測された変数は複数の潜伏変数によって同時に影響を受けることがある。
我々は,特定の方法で構築された観測変数の高次累積行列を併用する。
これらの高次累積行列の階数不足特性から,2つの観測変数間の因果非対称性が直接観察可能であることを示す。
論文 参考訳(メタデータ) (2025-10-26T15:10:00Z) - Predictive Multiplicity in Survival Models: A Method for Quantifying Model Uncertainty in Predictive Maintenance Applications [0.0]
我々は、生存に基づくモデルにおいて、予測的乗法が重要な関心事であると考えている。
あいまいさ、不明瞭さ、不明瞭さという形式的な尺度を導入し、それを定量化します。
これは特にメンテナンススケジューリングなどの下流タスクに関係している。
論文 参考訳(メタデータ) (2025-04-16T15:04:00Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - Identifiable Latent Polynomial Causal Models Through the Lens of Change [82.14087963690561]
因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。
主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文 参考訳(メタデータ) (2023-10-24T07:46:10Z) - Weakly Supervised Representation Learning with Sparse Perturbations [82.39171485023276]
潜伏変数のスパース摂動によって生じる観測の監督が弱い場合、未知の連続潜伏分布の下で識別が達成可能であることを示す。
本稿では,この理論に基づく自然な推定手法を提案し,それを低次元の合成および画像に基づく実験で説明する。
論文 参考訳(メタデータ) (2022-06-02T15:30:07Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。