論文の概要: Integrating Random Forests and Generalized Linear Models for Improved Accuracy and Interpretability
- arxiv url: http://arxiv.org/abs/2307.01932v2
- Date: Fri, 23 May 2025 14:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.337638
- Title: Integrating Random Forests and Generalized Linear Models for Improved Accuracy and Interpretability
- Title(参考訳): ランダムフォレストと一般化線形モデルの統合による精度と解釈性の向上
- Authors: Abhineet Agarwal, Ana M. Kenney, Yan Shuo Tan, Tiffany M. Tang, Bin Yu,
- Abstract要約: 我々はRF+と呼ばれるフレームワークを用いて、RFの強みと一般化線形モデルの強さを組み合わせる。
RF+はRFよりも予測精度を向上し、MDI+は信号の特徴を特定する上での一般的な特徴重要度よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 9.128252505139471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Random forests (RFs) are among the most popular supervised learning algorithms due to their nonlinear flexibility and ease-of-use. However, as black box models, they can only be interpreted via algorithmically-defined feature importance methods, such as Mean Decrease in Impurity (MDI), which have been observed to be highly unstable and have ambiguous scientific meaning. Furthermore, they can perform poorly in the presence of smooth or additive structure. To address this, we reinterpret decision trees and MDI as linear regression and $R^2$ values, respectively, with respect to engineered features associated with the tree's decision splits. This allows us to combine the respective strengths of RFs and generalized linear models in a framework called RF+, which also yields an improved feature importance method we call MDI+. Through extensive data-inspired simulations and real-world datasets, we show that RF+ improves prediction accuracy over RFs and that MDI+ outperforms popular feature importance measures in identifying signal features, often yielding more than a 10% improvement over its closest competitor. In case studies on drug response prediction and breast cancer subtyping, we further show that MDI+ extracts well-established genes with significantly greater stability compared to existing feature importance measures.
- Abstract(参考訳): ランダムフォレスト(RF)は、非線形な柔軟性と使いやすさのために最も人気のある教師付き学習アルゴリズムの一つである。
しかしながら、ブラックボックスモデルとして、非常に不安定で、曖昧な科学的意味を持つと考えられてきたMDI(Mean Decrease in Impurity)のようなアルゴリズムで定義された特徴重要度メソッドによってのみ解釈できる。
さらに、スムーズな、または添加的な構造の存在下では、性能が良くない。
これを解決するために、決定木とMDIをそれぞれ線形回帰と$R^2$値として解釈する。
これにより、RF と一般化線形モデルのそれぞれの強みを RF+ というフレームワークで組み合わせることができる。
データにインスパイアされた広範囲なシミュレーションと実世界のデータセットを通して、RF+はRFよりも予測精度を向上し、MDI+は信号の特徴を特定する上での一般的な特徴重要度よりも優れており、しばしば最も近い競合よりも10%以上改善されていることを示す。
薬物反応予測と乳がんの亜型化に関する研究において、MDI+は既存の特徴重要度よりも安定性のよい遺伝子を抽出することを示した。
関連論文リスト
- Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization [17.26418974819275]
本稿では, 突発的特徴をプレーンノイズとして扱う新しい基準を開発する。
実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間注釈の有理量との重なりによって測定される)を最大10.4%向上させることが示された。
論文 参考訳(メタデータ) (2024-10-08T13:04:02Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - uGLAD: Sparse graph recovery by optimizing deep unrolled networks [11.48281545083889]
深層ネットワークを最適化してスパースグラフ復元を行う新しい手法を提案する。
我々のモデルであるuGLADは、最先端モデルGLADを教師なし設定に構築し、拡張します。
我々は, 遺伝子調節ネットワークから生成した合成ガウスデータ, 非ガウスデータを用いて, モデル解析を行い, 嫌気性消化の事例研究を行った。
論文 参考訳(メタデータ) (2022-05-23T20:20:27Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - From global to local MDI variable importances for random forests and
when they are Shapley values [9.99125500568217]
まず,世界平均不純物量(MDI)の変動重要度スコアが,いくつかの条件下でのシェープリー値と一致することを示す。
我々は、グローバルなMDI尺度と非常に自然な関係を持ち、局所的特徴関連性の新たな概念と結びつく、変数関連性の局所的MDI重要度尺度を導出する。
論文 参考訳(メタデータ) (2021-11-03T13:38:41Z) - Overcoming Catastrophic Forgetting with Gaussian Mixture Replay [79.0660895390689]
ガウス混合モデル(GMM)に基づく連続学習(CL)のためのリハーサルベースアプローチを提案する。
過去のタスクからサンプルを生成し,現在のトレーニングデータと統合することで,破滅的忘れ(cf)を緩和する。
複数の画像データセットでGMRを評価し,クラス別サブタスクに分割する。
論文 参考訳(メタデータ) (2021-04-19T11:41:34Z) - HiPaR: Hierarchical Pattern-aided Regression [71.22664057305572]
HiPaRは、$p Rightarrow y = f(X)$という形式のハイブリッドルールをマイニングします。ここでは、$p$はデータ領域の特性付けであり、$f(X)$は興味ある$y$の変数上の線形回帰モデルです。
HiPaRはパターンマイニング技術を利用して、ターゲット変数が局所線形モデルによって正確に説明できるデータの領域を特定する。
実験が示すように、hipalは既存のパターンベースの回帰法よりも少ないルールをマイニングしながら、最先端の予測性能を実現しています。
論文 参考訳(メタデータ) (2021-02-24T15:53:17Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Toward a Generalization Metric for Deep Generative Models [18.941388632914666]
深部生成モデル(DGM)の一般化能力の測定は困難である。
評価指標の堅牢性を比較するためのフレームワークを提案する。
我々はジェネレーション潜在変数モデル(GLVM)の複雑さを推定する効率的な方法を開発した。
論文 参考訳(メタデータ) (2020-11-02T05:32:07Z) - Efficient MDI Adaptation for n-gram Language Models [25.67864542036985]
本稿では,n-gram言語モデル適応のための最小識別情報原理に基づく効率的なアルゴリズムを提案する。
n-gramモデルのバックオフ構造と階層的トレーニング手法のアイデアを利用して、MDI適応を各反復における入力に対する線形時間複雑度で計算可能であることを示す。
論文 参考訳(メタデータ) (2020-08-05T22:21:03Z) - Learning to Match Distributions for Domain Adaptation [116.14838935146004]
本稿では,ドメイン間分布マッチングを自動的に学習する学習 to Match (L2M)を提案する。
L2Mは、メタネットワークを用いてデータ駆動方式で分布整合損失を学習することにより、誘導バイアスを低減する。
公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。
論文 参考訳(メタデータ) (2020-07-17T03:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。