論文の概要: RCProb: Probabilistic Rule Extraction for Efficient Simplification of Tree Ensembles
- arxiv url: http://arxiv.org/abs/2604.25304v1
- Date: Tue, 28 Apr 2026 07:12:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.751322
- Title: RCProb: Probabilistic Rule Extraction for Efficient Simplification of Tree Ensembles
- Title(参考訳): RCProb:木組の効率的な単純化のための確率論的ルール抽出
- Authors: Josue Obregon,
- Abstract要約: 木アンサンブルは、強い予測性能と効率的な訓練手順のため、産業機械学習で広く使用されている。
1つのアプローチは、元のモデルの予測性能を維持しながら、ツリーアンサンブルから決定ルールを抽出することである。
本稿では,ルール抽出の計算コストを削減するために設計されたルールCOSI+の確率的再構成であるRCProbを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree ensembles are widely used in industrial machine learning due to their strong predictive performance and efficient training procedures. However, as the number of trees in an ensemble grows, the resulting models become increasingly difficult for humans to interpret. To address this limitation, explainable artificial intelligence (XAI) studies methods that generate interpretable models capable of explaining complex predictors. One approach consists of extracting decision rules from tree ensembles while attempting to preserve the predictive performance of the original model. In previous work, we introduced RuleCOSI+, a greedy heuristic algorithm for extracting compact rule-based models from tree ensembles. Although RuleCOSI+ produces accurate and interpretable rule sets, it relies on repeated empirical frequency counting over the training data to estimate rule confidence, which becomes computationally expensive for large datasets. In this paper, we propose RCProb, a probabilistic reformulation of RuleCOSI+ designed to reduce the computational cost of rule extraction. RCProb estimates rule statistics using Dirichlet-smoothed class priors and Beta-smoothed condition likelihoods combined through a Naive Bayes formulation, avoiding repeated dataset scans. Experiments on 33 benchmark datasets show that RCProb maintains competitive predictive performance while reducing runtime by approximately $22\times$ compared with RuleCOSI+, while producing more compact rule sets on average.
- Abstract(参考訳): 木アンサンブルは、強い予測性能と効率的な訓練手順のため、産業機械学習で広く使用されている。
しかし、アンサンブルの木の数が増加するにつれて、結果として生じるモデルは人間にとって解釈が困難になる。
この制限に対処するために、説明可能な人工知能(XAI)は、複雑な予測子を説明することができる解釈可能なモデルを生成する方法を研究する。
1つのアプローチは、元のモデルの予測性能を維持しながら、ツリーアンサンブルから決定ルールを抽出することである。
これまでの研究で,木アンサンブルからコンパクトなルールベースモデルを抽出するグリーディーなヒューリスティックアルゴリズムであるルールCOSI+を紹介した。
RuleCOSI+は正確かつ解釈可能なルールセットを生成するが、大規模なデータセットでは計算コストのかかるルール信頼度を推定するために、トレーニングデータに対する経験的頻度の繰り返しに依存する。
本稿では,ルール抽出の計算コストを削減するために設計されたルールCOSI+の確率的再構成であるRCProbを提案する。
RCProbは、Dirichlet-smoothed class priorsとBeta-smoothed condition chancesをNaive Bayesの定式化によって組み合わせ、繰り返しのデータセットスキャンを避けることによって、ルール統計を推定する。
33のベンチマークデータセットの実験によると、RCProbは、平均でよりコンパクトなルールセットを生成しながら、ランタイムを約22\times$に削減しながら、競合予測性能を維持している。
関連論文リスト
- Learning-Augmented Moment Estimation on Time-Decay Models [55.06256430461023]
私たちは、多くの基本的な問題に対して学習強化アルゴリズムを提供するために、データセットのヘビーヒッターにオラクルを使用します。
提案手法は,実データおよび合成データセット上でのアルゴリズムの実用的効率を実証する実験的な評価によって理論的結果を補完するものである。
論文 参考訳(メタデータ) (2026-03-03T00:42:34Z) - Extracting Interpretable Models from Tree Ensembles: Computational and Statistical Perspectives [19.50913413088063]
木アンサンブルから決定規則のコンパクトな集合を抽出する推定器を提案する。
我々の推定器の重要な新規性は、抽出されたルールの数と各ルールの相互作用深さを共同で制御する柔軟性である。
我々の推定器は既存のルール抽出アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-25T04:06:37Z) - Learning Decision Trees as Amortized Structure Inference [59.65621207449269]
本稿では,予測決定木アンサンブルを学習するためのハイブリッドアモータイズされた構造推論手法を提案する。
提案手法であるDT-GFNは,標準分類ベンチマークにおける最先端決定木やディープラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T07:05:07Z) - CORTEX: A Cost-Sensitive Rule and Tree Extraction Method [1.1060425537315088]
ツリーベースおよびルールベース機械学習モデルは、説明可能な人工知能(XAI)において重要な役割を果たす
これらの透明モデルは通常、ブラックボックスモデルの論理を説明するためのポストホックXAIアプローチであるサロゲートモデリングで使用される。
本研究では,新しいルールベースXAIアルゴリズムであるCORTEX法を提案する。
論文 参考訳(メタデータ) (2025-02-05T14:20:34Z) - A Unified Approach to Extract Interpretable Rules from Tree Ensembles via Integer Programming [2.1408617023874443]
ツリーアンサンブルは非常に人気のある機械学習モデルであり、教師付き分類と回帰タスクの有効性で知られている。
我々の研究は、訓練された木アンサンブルから最適化されたルールのリストを抽出することを目的としており、ユーザーは完全なモデルの予測力をほとんど保持する凝縮された解釈可能なモデルを提供する。
我々の広範な計算実験は,木アンサンブルに対する予測性能と忠実度の観点から,本手法が他のルール抽出法と競合することを示す統計的に有意な証拠を提供する。
論文 参考訳(メタデータ) (2024-06-30T22:33:47Z) - Deciphering RNA Secondary Structure Prediction: A Probabilistic K-Rook Matching Perspective [63.3632827588974]
RFoldは、与えられたシーケンスから最もよく一致するK-Rook解を予測する方法である。
RFoldは、最先端のアプローチよりも競争性能とおよそ8倍の推論効率を達成する。
論文 参考訳(メタデータ) (2022-12-02T16:34:56Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。