論文の概要: Discovering outstanding subgroup lists for numeric targets using MDL
- arxiv url: http://arxiv.org/abs/2006.09186v1
- Date: Tue, 16 Jun 2020 14:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:27:07.273458
- Title: Discovering outstanding subgroup lists for numeric targets using MDL
- Title(参考訳): MDLを用いた数値的対象の優れたサブグループリストの発見
- Authors: Hugo M. Proen\c{c}a, Peter Gr\"unwald, Thomas B\"ack, Matthijs van
Leeuwen
- Abstract要約: 本稿では,最小記述長(MDL)の原理とサブグループリストに基づくサブグループ集合発見アルゴリズムを提案する。
我々の形式化は、一つの部分群を見つける際に、既存の品質尺度と一致することを示す。
次に、優れたサブグループリストを返すことを実証的に示すアルゴリズムであるSSD++を提案する。
- 参考スコア(独自算出の注目度): 0.34410212782758054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of subgroup discovery (SD) is to find interpretable descriptions of
subsets of a dataset that stand out with respect to a target attribute. To
address the problem of mining large numbers of redundant subgroups, subgroup
set discovery (SSD) has been proposed. State-of-the-art SSD methods have their
limitations though, as they typically heavily rely on heuristics and/or
user-chosen hyperparameters.
We propose a dispersion-aware problem formulation for subgroup set discovery
that is based on the minimum description length (MDL) principle and subgroup
lists. We argue that the best subgroup list is the one that best summarizes the
data given the overall distribution of the target. We restrict our focus to a
single numeric target variable and show that our formalization coincides with
an existing quality measure when finding a single subgroup, but that-in
addition-it allows to trade off subgroup quality with the complexity of the
subgroup. We next propose SSD++, a heuristic algorithm for which we empirically
demonstrate that it returns outstanding subgroup lists: non-redundant sets of
compact subgroups that stand out by having strongly deviating means and small
spread.
- Abstract(参考訳): サブグループ発見(SD)の課題は、ターゲット属性に関して際立ったデータセットのサブセットの解釈可能な記述を見つけることである。
多数の冗長部分群をマイニングする問題に対処するため,サブグループ集合探索(SSD)が提案されている。
しかし、最先端のSSDメソッドには制限がある。
本稿では,最小記述長(MDL)の原理とサブグループリストに基づくサブグループ集合発見のための分散型問題定式化を提案する。
最適なサブグループリストは、対象の全体分布からデータを最もよく要約したものであると論じる。
我々は、焦点を1つの数値的目標変数に限定し、我々の形式化が1つの部分群を見つける際に既存の品質尺度と一致することを示すが、その追加により、部分群の品質と部分群の複雑さとのトレードオフが可能になる。
次に、SSD++を提案する。これは、優れたサブグループリストを返すことを経験的に実証するヒューリスティックアルゴリズムである。
関連論文リスト
- Using Constraints to Discover Sparse and Alternative Subgroup Descriptions [0.0]
サブグループ発見法により、ユーザはデータセットで興味深い領域の簡単な記述を取得できる。
まず、サブグループ記述で使用される機能の数を制限し、後者はスパース化します。
第二に、与えられたサブグループと類似したデータオブジェクトの集合をカバーするが、異なる特徴を持つ代替サブグループ記述を見つけるための新しい最適化問題を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:10:01Z) - Discover and Mitigate Multiple Biased Subgroups in Image Classifiers [45.96784278814168]
機械学習モデルは、分散データではうまく機能するが、トレーニングデータに不足している偏りのあるサブグループでは失敗することが多い。
この問題に対処するために,分解,解釈,緩和(DIM)を提案する。
提案手法では,画像特徴を複数のサブグループを表す複数のコンポーネントに分解する。
論文 参考訳(メタデータ) (2024-03-19T14:44:54Z) - Subgroup Discovery in MOOCs: A Big Data Application for Describing Different Types of Learners [0.0]
本稿では,MapReduceに基づくサブグループ探索手法を用いて,大規模オープンオンラインコース(MOOC)における学習者の種類を分類し,記述することを目的とする。
提案されたサブグループディスカバリアプローチでは、MapReduceのような新たな並列メソッドが、非常に大きなデータセットに対処できると考えている。
論文 参考訳(メタデータ) (2024-02-10T16:07:38Z) - Identification of Systematic Errors of Image Classifiers on Rare
Subgroups [12.064692111429494]
組織的エラーは、少数民族の公正性だけでなく、ドメインシフト時の堅牢性と安全性にも影響します。
我々は,テキスト・ツー・イメージ・モデルにおける最近の進歩を活用し,ターゲットモデルの性能が低いサブグループに対するサブグループのテキスト記述("prompts")の空間を探索する。
本稿では, PromptAttackによるサブグループカバレッジと識別可能性について検討し, 高い精度で系統的誤りを識別できることを見出した。
論文 参考訳(メタデータ) (2023-03-09T07:08:25Z) - Outlier-Robust Group Inference via Gradient Space Clustering [50.87474101594732]
既存のメソッドは、最悪のグループのパフォーマンスを改善することができるが、それらは、しばしば高価で入手できないグループアノテーションを必要とする。
モデルパラメータの勾配の空間にデータをクラスタリングすることで,アウトレーヤの存在下でグループアノテーションを学習する問題に対処する。
そこで我々は,DBSCANのような標準クラスタリング手法に適合するように,マイノリティグループや外れ値に関する情報を保存しながら,勾配空間内のデータがより単純な構造を持つことを示す。
論文 参考訳(メタデータ) (2022-10-13T06:04:43Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Focus on the Common Good: Group Distributional Robustness Follows [47.62596240492509]
本稿では,多様なグループ間で共有される特徴の学習を明示的に促進する,新しい,シンプルなアルゴリズムを提案する。
グループDROは、最低の正規化損失を持つグループに焦点を当て、代わりに、他のグループでもより良いパフォーマンスを実現するグループに焦点を当てるが、共有/共通機能を学ぶことにつながる可能性がある。
論文 参考訳(メタデータ) (2021-10-06T09:47:41Z) - Just Train Twice: Improving Group Robustness without Training Group
Information [101.84574184298006]
経験的リスク最小化による標準トレーニングは、特定のグループにおける平均的かつ低い精度で高い精度を達成するモデルを生成することができる。
群分布的ロバストな最適化 (group DRO) のような、最悪のグループ精度を達成する以前のアプローチでは、トレーニングポイントごとに高価なグループアノテーションが必要である。
本稿では,複数のエポックに対して標準的なERMモデルを訓練し,第1モデルが誤分類したトレーニング例を重み付けする第2モデルを訓練する,単純な2段階のアプローチであるJTTを提案する。
論文 参考訳(メタデータ) (2021-07-19T17:52:32Z) - Learning Multi-Attention Context Graph for Group-Based Re-Identification [214.84551361855443]
オーバーラップしていないカメラシステムを介して人々のグループを再識別または取得することを学ぶことは、ビデオ監視において重要なアプリケーションです。
本研究では,グループre-idというグループを識別するためのコンテキスト情報の利用を検討する。
本研究では,グループベースリドタスクを同時に処理するグラフニューラルネットワークに基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T09:57:47Z) - Robust subgroup discovery [0.2578242050187029]
最小記述長原理を用いて最適ロバスト部分群発見の問題を定式化する。
RSDは、良いサブグループリストを見つけ、各イテレーションで最も重要なサブグループが追加されたことを保証します。
我々は,rsdが従来のサブグループ集合発見法を上回っている54のデータセットを,品質とサブグループリストサイズの観点から実証的に示す。
論文 参考訳(メタデータ) (2021-03-25T09:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。