論文の概要: Interpretable Models via Pairwise permutations algorithm
- arxiv url: http://arxiv.org/abs/2111.09145v1
- Date: Wed, 17 Nov 2021 14:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 15:19:14.578396
- Title: Interpretable Models via Pairwise permutations algorithm
- Title(参考訳): Pairwise permutationアルゴリズムによる解釈モデル
- Authors: Troy Maaslandand and Jo\~ao Pereira and Diogo Bastos and Marcus de
Goffau and Max Nieuwdorp and Aeilko H. Zwinderman and Evgeni Levin
- Abstract要約: 高次元の生物学的データセットに見られる最も一般的な落とし穴の1つは特徴間の相関である。
これは、統計的および機械学習の方法論がこれらの相関予測器を過度に評価または過小評価することにつながる可能性がある。
我々は,特徴値の相関バイアスを軽減することを目的として,textitpairwise permutation algorithm (PPA) と呼ばれる新しい手法を定義する。
- 参考スコア(独自算出の注目度): 0.7588690078299699
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: One of the most common pitfalls often found in high dimensional biological
data sets are correlations between the features. This may lead to statistical
and machine learning methodologies overvaluing or undervaluing these correlated
predictors, while the truly relevant ones are ignored. In this paper, we will
define a new method called \textit{pairwise permutation algorithm} (PPA) with
the aim of mitigating the correlation bias in feature importance values.
Firstly, we provide a theoretical foundation, which builds upon previous work
on permutation importance. PPA is then applied to a toy data set, where we
demonstrate its ability to correct the correlation effect. We further test PPA
on a microbiome shotgun dataset, to show that the PPA is already able to obtain
biological relevant biomarkers.
- Abstract(参考訳): 高次元の生物学的データセットに見られる最も一般的な落とし穴の1つは特徴間の相関である。
これにより、統計的および機械学習の方法論がこれらの相関予測因子を過大評価または過小評価し、真に関連する予測は無視される可能性がある。
本稿では,特徴重要度における相関バイアスの軽減を目的とした新しい手法である \textit{pairwise permutation algorithm} (ppa) を定義する。
まず、置換の重要性に関する以前の研究に基づく理論的基礎を提供する。
PPAはおもちゃのデータセットに適用され、相関効果を補正する能力を示す。
さらにマイクロバイオームショットガンデータセットを用いてPPAを試験し、PPAがすでに生物学的なバイオマーカーを取得可能であることを示す。
関連論文リスト
- Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Extracting Protein-Protein Interactions (PPIs) from Biomedical
Literature using Attention-based Relational Context Information [5.456047952635665]
本研究は,二元的相互作用型ラベルを付加したベット型相互作用定義を用いた多元的PPIコーパスを提案する。
変換器を用いた深層学習手法は,関係表現のための関係文脈情報を利用して関係分類性能を向上させる。
このモデルの性能は, 広く研究されている4つのバイオメディカル関係抽出データセットで評価される。
論文 参考訳(メタデータ) (2024-03-08T01:43:21Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Variable Importance in High-Dimensional Settings Requires Grouping [19.095605415846187]
Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。
クラスタリングまたはいくつかの事前知識を介して統計的に変数をグループ化すると、ある程度のパワーバックが得られる。
重み付けにより拡張された手法は,高相関なグループであっても,型Iエラーを制御可能であることを示す。
論文 参考訳(メタデータ) (2023-12-18T00:21:47Z) - TriSig: Assessing the statistical significance of triclusters [2.064612766965483]
本研究は、テンソルデータのパターンの確率を評価するための統計的枠組みを提案し、ヌル期待から逸脱する。
偽陽性発見のための二項検定に関する総合的な議論が欠かせない。
バイオケミカルおよびバイオテクノロジー分野における、異なる実世界のケーススタディに対する最先端のトリクラスタリングアルゴリズムの適用から得られた結果。
論文 参考訳(メタデータ) (2023-06-01T13:08:54Z) - Correlation visualization under missing values: a comparison between
imputation and direct parameter estimation methods [4.963490281438653]
様々なデータ手法が相関プロットに与える影響を比較し,ランダムとモノトーンという2つの共通欠落パターンに着目した。
実験では, 直接パラメータ推定手法であるDPERを用いて相関行列をプロットすることを推奨する。
論文 参考訳(メタデータ) (2023-05-10T10:52:30Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Exploiting non-i.i.d. data towards more robust machine learning
algorithms [0.0]
機械学習アルゴリズムは、データからパターンや相関を見つけるのに優れていることがますます示されている。
本稿では,普遍因果関係を優先する正規化方式を提案する。
従来のl-正規化に対して、分配外試験セットでより良い性能が得られる。
論文 参考訳(メタデータ) (2020-10-07T14:15:37Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。