論文の概要: Iterative Rule Extension for Logic Analysis of Data: an MILP-based
heuristic to derive interpretable binary classification from large datasets
- arxiv url: http://arxiv.org/abs/2110.13664v1
- Date: Mon, 25 Oct 2021 13:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:18:19.098064
- Title: Iterative Rule Extension for Logic Analysis of Data: an MILP-based
heuristic to derive interpretable binary classification from large datasets
- Title(参考訳): データの論理解析のための反復規則拡張:大データセットから解釈可能な二項分類を導出するMILPに基づくヒューリスティック
- Authors: Marleen Balvert
- Abstract要約: この研究は、最大10,000のサンプルとサンプル特性を持つデータからDNFのブールフレーズを抽象化するアルゴリズムIRELANDを提示する。
その結果、大規模なデータセットIRELANDは現在の最先端よりも優れており、現在のモデルがメモリを使い果たしたり、過剰なランタイムを必要とするデータセットのソリューションを見つけることができることがわかった。
- 参考スコア(独自算出の注目度): 0.6526824510982799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven decision making is rapidly gaining popularity, fueled by the
ever-increasing amounts of available data and encouraged by the development of
models that can identify beyond linear input-output relationships.
Simultaneously the need for interpretable prediction- and classification
methods is increasing, as this improves both our trust in these models and the
amount of information we can abstract from data. An important aspect of this
interpretability is to obtain insight in the sensitivity-specificity trade-off
constituted by multiple plausible input-output relationships. These are often
shown in a receiver operating characteristic (ROC) curve. These developments
combined lead to the need for a method that can abstract complex yet
interpretable input-output relationships from large data, i.e. data containing
large numbers of samples and sample features. Boolean phrases in disjunctive
normal form (DNF) are highly suitable for explaining non-linear input-output
relationships in a comprehensible way. Mixed integer linear programming (MILP)
can be used to abstract these Boolean phrases from binary data, though its
computational complexity prohibits the analysis of large datasets. This work
presents IRELAND, an algorithm that allows for abstracting Boolean phrases in
DNF from data with up to 10,000 samples and sample characteristics. The results
show that for large datasets IRELAND outperforms the current state-of-the-art
and can find solutions for datasets where current models run out of memory or
need excessive runtimes. Additionally, by construction IRELAND allows for an
efficient computation of the sensitivity-specificity trade-off curve, allowing
for further understanding of the underlying input-output relationship.
- Abstract(参考訳): データ駆動による意思決定が急速に普及し、利用可能なデータが増え続けており、線形入力と出力の関係を超えて識別できるモデルの開発が奨励されている。
同時に、これらのモデルに対する信頼とデータから抽象化できる情報の量の両方を改善するため、解釈可能な予測と分類方法の必要性が増している。
この解釈可能性の重要な側面は、複数の妥当な入力-出力関係によって構成される感度-特異性トレードオフの洞察を得ることである。
これらはしばしばレシーバー操作特性(ROC)曲線で示される。
これらの発展が組み合わさって、大量のサンプルやサンプル機能を含むデータなど、大規模データから複雑で解釈可能な入出力関係を抽象化できる方法が必要となる。
直交正規形(DNF)のブールフレーズは,非線形入力-出力関係を理解可能な方法で説明するのに非常に適している。
混合整数線形プログラミング(MILP)は、これらのブールフレーズをバイナリデータから抽象化するために用いられるが、その計算複雑性は大規模なデータセットの分析を妨げている。
この研究は、最大10,000のサンプルとサンプル特性を持つデータからDNFのブールフレーズを抽象化するアルゴリズムIRELANDを提示する。
その結果、大規模なデータセットIRELANDは現在の最先端よりも優れており、現在のモデルがメモリを使い果たしたり、過剰なランタイムを必要とするデータセットのソリューションを見つけることができる。
さらに、IRELANDは構成によって感度-特異性トレードオフ曲線の効率的な計算を可能にし、基礎となる入出力関係のさらなる理解を可能にする。
関連論文リスト
- Multivariate Functional Linear Discriminant Analysis for the
Classification of Short Time Series with Missing Data [0.0]
機能線形判別分析(FLDA)はLDAを介する多クラス分類を拡張する強力なツールである。
MUDRAは、欠落したデータの割合の大きなデータセットの解釈可能な分類を可能にする。
論文 参考訳(メタデータ) (2024-02-20T15:58:45Z) - Discovery of the Hidden World with Large Language Models [100.38157787218044]
COAT: Causal representatiOn AssistanTについて紹介する。
COATは、非構造化データから潜在的な因果因子を抽出する因子プロジェクタとしてLLMを組み込んでいる。
LLMはデータ値の収集に使用される追加情報を提供するよう指示することもできる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - $\texttt{causalAssembly}$: Generating Realistic Production Data for
Benchmarking Causal Discovery [1.3048920509133808]
我々は、因果探索手法のベンチマークをサポートする半合成製造データを生成するシステムを構築した。
我々は、柔軟に推定し、条件分布を表すために分布ランダムな森林を用いる。
このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。
論文 参考訳(メタデータ) (2023-06-19T10:05:54Z) - ALMERIA: Boosting pairwise molecular contrasts with scalable methods [0.0]
ALMERIAは、一対の分子コントラストに基づく化合物の類似性と活性予測を推定するためのツールである。
大量のデータを利用するスケーラブルなソフトウェアと手法を使って実装されている。
分子活性予測の最先端性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-04-28T16:27:06Z) - Targeted Analysis of High-Risk States Using an Oriented Variational
Autoencoder [3.494548275937873]
可変オートエンコーダ(VAE)ニューラルネットワークは、電力系統状態を生成するために訓練することができる。
VAEの潜在空間符号の座標は、データの概念的特徴と相関することが示されている。
本稿では、遅延空間コードと生成されたデータとのリンクを制限するために、指向性変動オートエンコーダ(OVAE)を提案する。
論文 参考訳(メタデータ) (2023-03-20T19:34:21Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - ARM-Net: Adaptive Relation Modeling Network for Structured Data [29.94433633729326]
ARM-Netは、構造化データに適した適応関係モデリングネットワークであり、リレーショナルデータのためのARM-Netに基づく軽量フレームワークARMORである。
ARM-Netは既存のモデルより一貫して優れており、データセットに対してより解釈可能な予測を提供する。
論文 参考訳(メタデータ) (2021-07-05T07:37:24Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。