論文の概要: Robust subgroup discovery
- arxiv url: http://arxiv.org/abs/2103.13686v1
- Date: Thu, 25 Mar 2021 09:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:58:03.294252
- Title: Robust subgroup discovery
- Title(参考訳): ロバスト部分群発見
- Authors: Hugo Manuel Proen\c{c}a, Thomas B\"ack, Matthijs van Leeuwen
- Abstract要約: 最小記述長原理を用いて最適ロバスト部分群発見の問題を定式化する。
RSDは、良いサブグループリストを見つけ、各イテレーションで最も重要なサブグループが追加されたことを保証します。
我々は,rsdが従来のサブグループ集合発見法を上回っている54のデータセットを,品質とサブグループリストサイズの観点から実証的に示す。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the problem of robust subgroup discovery, i.e., finding a set of
interpretable descriptions of subsets that 1) stand out with respect to one or
more target attributes, 2) are statistically robust, and 3) non-redundant. Many
attempts have been made to mine either locally robust subgroups or to tackle
the pattern explosion, but we are the first to address both challenges at the
same time from a global perspective.
First, we formulate a broad model class of subgroup lists, i.e., ordered sets
of subgroups, for univariate and multivariate targets that can consist of
nominal or numeric variables. This novel model class allows us to formalize the
problem of optimal robust subgroup discovery using the Minimum Description
Length (MDL) principle, where we resort to optimal Normalized Maximum
Likelihood and Bayesian encodings for nominal and numeric targets,
respectively. Notably, we show that our problem definition is equal to mining
the top-1 subgroup with an information-theoretic quality measure plus a penalty
for complexity.
Second, as finding optimal subgroup lists is NP-hard, we propose RSD, a
greedy heuristic that finds good subgroup lists and guarantees that the most
significant subgroup found according to the MDL criterion is added in each
iteration, which is shown to be equivalent to a Bayesian one-sample
proportions, multinomial, or t-test between the subgroup and dataset marginal
target distributions plus a multiple hypothesis testing penalty. We empirically
show on 54 datasets that RSD outperforms previous subgroup set discovery
methods in terms of quality and subgroup list size.
- Abstract(参考訳): 本稿では, 1 つ以上の対象属性について,1) が統計的にロバストである,3) が冗長でない部分群の解釈可能な記述の集合を見つけるという,ロバスト部分群発見の問題を紹介する。
局所的にロバストなサブグループを採掘するか、パターン爆発に取り組むために多くの試みがなされてきたが、我々は、グローバルな視点から両方の課題に同時に対処する最初の試みである。
まず、単変量および多変量ターゲットの順序付き部分群リストの広いモデルクラス、すなわち、名目変数または数値変数からなることができる順序付き部分群を定式化する。
この新しいモデルクラスにより、最小記述長(MDL)原理を用いて最適なロバストな部分群発見の問題を定式化することができる。
特に,問題定義は情報理論的品質尺度と複雑性のペナルティでトップ1サブグループをマイニングするのと同等であることを示す。
第二に、最適部分群リストの発見はNP-hardであるとして、良い部分群リストを見つけ、MDL基準に従って発見された最も重要な部分群が各イテレーションに付加されることを保証する、強欲なヒューリスティックであるRSDを提案する。
我々は,rsdが従来のサブグループ集合発見法を上回っている54のデータセットを,品質とサブグループリストサイズの観点から実証的に示す。
関連論文リスト
- Using Constraints to Discover Sparse and Alternative Subgroup Descriptions [0.0]
サブグループ発見法により、ユーザはデータセットで興味深い領域の簡単な記述を取得できる。
まず、サブグループ記述で使用される機能の数を制限し、後者はスパース化します。
第二に、与えられたサブグループと類似したデータオブジェクトの集合をカバーするが、異なる特徴を持つ代替サブグループ記述を見つけるための新しい最適化問題を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:10:01Z) - Discover and Mitigate Multiple Biased Subgroups in Image Classifiers [45.96784278814168]
機械学習モデルは、分散データではうまく機能するが、トレーニングデータに不足している偏りのあるサブグループでは失敗することが多い。
この問題に対処するために,分解,解釈,緩和(DIM)を提案する。
提案手法では,画像特徴を複数のサブグループを表す複数のコンポーネントに分解する。
論文 参考訳(メタデータ) (2024-03-19T14:44:54Z) - Clustered Orienteering Problem with Subgroups [6.961946145048321]
サブグループによるクラスター配向問題(COPS)
我々の新しい定式化は、以前の2つのよく知られた変種をモデル化し、解決する能力を持っていることを示す。
論文 参考訳(メタデータ) (2023-12-26T18:28:25Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Multi-Group Fairness Evaluation via Conditional Value-at-Risk Testing [24.553384023323332]
本研究では,条件付き値-at-Riskに基づく性能格差のテスト手法を提案する。
性能違反を発見するのに必要なサンプルの複雑さは指数関数的に減少し、群数の平方根によって最も上界にあることを示す。
論文 参考訳(メタデータ) (2023-12-06T19:25:32Z) - Concomitant Group Testing [49.50984893039441]
肯定的なテストが複数種類の項目の組み合わせを必要とするという考え方を捉えたグループテストの問題のバリエーションを紹介した。
目標は、可能な限り少数のテストを使用して、半欠陥セットをすべて確実に識別することである。
我々のアルゴリズムは、(i)決定性(ゼロエラー)かランダム化(小エラー)か、(ii)非適応性(非適応性)、完全適応性(完全適応性)、あるいは限定適応性(限定適応性)かによって区別される。
論文 参考訳(メタデータ) (2023-09-08T09:11:12Z) - Focus on the Common Good: Group Distributional Robustness Follows [47.62596240492509]
本稿では,多様なグループ間で共有される特徴の学習を明示的に促進する,新しい,シンプルなアルゴリズムを提案する。
グループDROは、最低の正規化損失を持つグループに焦点を当て、代わりに、他のグループでもより良いパフォーマンスを実現するグループに焦点を当てるが、共有/共通機能を学ぶことにつながる可能性がある。
論文 参考訳(メタデータ) (2021-10-06T09:47:41Z) - Just Train Twice: Improving Group Robustness without Training Group
Information [101.84574184298006]
経験的リスク最小化による標準トレーニングは、特定のグループにおける平均的かつ低い精度で高い精度を達成するモデルを生成することができる。
群分布的ロバストな最適化 (group DRO) のような、最悪のグループ精度を達成する以前のアプローチでは、トレーニングポイントごとに高価なグループアノテーションが必要である。
本稿では,複数のエポックに対して標準的なERMモデルを訓練し,第1モデルが誤分類したトレーニング例を重み付けする第2モデルを訓練する,単純な2段階のアプローチであるJTTを提案する。
論文 参考訳(メタデータ) (2021-07-19T17:52:32Z) - GroupifyVAE: from Group-based Definition to VAE-based Unsupervised
Representation Disentanglement [91.9003001845855]
他の誘導バイアスを導入しないと、VAEベースの非監視的非絡み合いは実現できない。
グループ理論に基づく定義から導かれる制約を非確率的帰納的バイアスとして活用し,vaeに基づく教師なし不連続に対処する。
提案手法の有効性を検証するために,5つのデータセット上で,vaeベースモデルが最も目立つ1800モデルをトレーニングした。
論文 参考訳(メタデータ) (2021-02-20T09:49:51Z) - Discovering outstanding subgroup lists for numeric targets using MDL [0.34410212782758054]
本稿では,最小記述長(MDL)の原理とサブグループリストに基づくサブグループ集合発見アルゴリズムを提案する。
我々の形式化は、一つの部分群を見つける際に、既存の品質尺度と一致することを示す。
次に、優れたサブグループリストを返すことを実証的に示すアルゴリズムであるSSD++を提案する。
論文 参考訳(メタデータ) (2020-06-16T14:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。