論文の概要: MINTY: Rule-based Models that Minimize the Need for Imputing Features
with Missing Values
- arxiv url: http://arxiv.org/abs/2311.14108v1
- Date: Thu, 23 Nov 2023 17:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:06:48.473327
- Title: MINTY: Rule-based Models that Minimize the Need for Imputing Features
with Missing Values
- Title(参考訳): minty: 価値のない機能を暗示する必要性を最小限にするルールベースのモデル
- Authors: Lena Stempfle and Fredrik D. Johansson
- Abstract要約: MINTYは、1つまたはそれ以上が欠落しているとき、相互の代替として機能する変数間の解離という形でルールを学ぶ方法である。
合成および実世界のデータセットを用いた実験において、MINTYの価値を実証し、その予測性能がベースラインに匹敵するか好適かを見出す。
- 参考スコア(独自算出の注目度): 10.591844776850857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rule models are often preferred in prediction tasks with tabular inputs as
they can be easily interpreted using natural language and provide predictive
performance on par with more complex models. However, most rule models'
predictions are undefined or ambiguous when some inputs are missing, forcing
users to rely on statistical imputation models or heuristics like zero
imputation, undermining the interpretability of the models. In this work, we
propose fitting concise yet precise rule models that learn to avoid relying on
features with missing values and, therefore, limit their reliance on imputation
at test time. We develop MINTY, a method that learns rules in the form of
disjunctions between variables that act as replacements for each other when one
or more is missing. This results in a sparse linear rule model, regularized to
have small dependence on features with missing values, that allows a trade-off
between goodness of fit, interpretability, and robustness to missing values at
test time. We demonstrate the value of MINTY in experiments using synthetic and
real-world data sets and find its predictive performance comparable or
favorable to baselines, with smaller reliance on features with missing values.
- Abstract(参考訳): ルールモデルは、自然言語を使って容易に解釈でき、より複雑なモデルと同等の予測性能を提供するため、表形式の入力を持つ予測タスクでしばしば好まれる。
しかし、ほとんどのルールモデルの予測は、いくつかの入力が欠けている場合、定義されていないか曖昧であり、ユーザーは統計的インプテーションモデルやゼロインプテーションのようなヒューリスティックに依存し、モデルの解釈可能性を損なう。
本稿では,値の欠如を回避し,テスト時のインプテーションへの依存度を制限することを学ぶ,簡潔で正確なルールモデルを適用することを提案する。
MINTYは,各変数間の解離という形でルールを学習する手法で,各変数が1つ以上の欠落時に相互の代替として機能する。
これにより、不適合性、解釈性、テスト時の欠落値に対する堅牢性の間のトレードオフを可能にするために、値の欠如した特徴への依存が小さいように規則化されたスパース線形規則モデルが実現される。
本研究では,合成および実世界のデータセットを用いた実験におけるmintyの価値を実証し,その予測性能がベースラインに匹敵するか好適であるかを見出した。
関連論文リスト
- COME: Test-time adaption by Conservatively Minimizing Entropy [45.689829178140634]
保守的に最小化されるエントロピー (COME) は従来のエントロピー (EM) の代替品である
COMEはモデル予測よりもディリクレ事前分布を特徴付けることによって、不確実性を明示的にモデル化する。
我々はCOMEが一般的なベンチマークで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-12T09:20:06Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Predicting is not Understanding: Recognizing and Addressing
Underspecification in Machine Learning [47.651130958272155]
下位仕様とは、ドメイン内の精度で区別できない複数のモデルの存在を指す。
我々は、不特定概念を形式化し、それを特定し、部分的に対処する方法を提案する。
論文 参考訳(メタデータ) (2022-07-06T11:20:40Z) - Sharing pattern submodels for prediction with missing values [12.981974894538668]
機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。
パターンサブモデル(パターンサブモデル)と呼ばれる別の手法を提案する。これは、テスト時に欠落した値に対して、予測を堅牢にし、パターンサブモデルの予測力を維持または改善させる。
論文 参考訳(メタデータ) (2022-06-22T15:09:40Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。