論文の概要: Discovering outstanding subgroup lists for numeric targets using MDL
- arxiv url: http://arxiv.org/abs/2006.09186v1
- Date: Tue, 16 Jun 2020 14:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:27:07.273458
- Title: Discovering outstanding subgroup lists for numeric targets using MDL
- Title(参考訳): MDLを用いた数値的対象の優れたサブグループリストの発見
- Authors: Hugo M. Proen\c{c}a, Peter Gr\"unwald, Thomas B\"ack, Matthijs van
Leeuwen
- Abstract要約: 本稿では,最小記述長(MDL)の原理とサブグループリストに基づくサブグループ集合発見アルゴリズムを提案する。
我々の形式化は、一つの部分群を見つける際に、既存の品質尺度と一致することを示す。
次に、優れたサブグループリストを返すことを実証的に示すアルゴリズムであるSSD++を提案する。
- 参考スコア(独自算出の注目度): 0.34410212782758054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of subgroup discovery (SD) is to find interpretable descriptions of
subsets of a dataset that stand out with respect to a target attribute. To
address the problem of mining large numbers of redundant subgroups, subgroup
set discovery (SSD) has been proposed. State-of-the-art SSD methods have their
limitations though, as they typically heavily rely on heuristics and/or
user-chosen hyperparameters.
We propose a dispersion-aware problem formulation for subgroup set discovery
that is based on the minimum description length (MDL) principle and subgroup
lists. We argue that the best subgroup list is the one that best summarizes the
data given the overall distribution of the target. We restrict our focus to a
single numeric target variable and show that our formalization coincides with
an existing quality measure when finding a single subgroup, but that-in
addition-it allows to trade off subgroup quality with the complexity of the
subgroup. We next propose SSD++, a heuristic algorithm for which we empirically
demonstrate that it returns outstanding subgroup lists: non-redundant sets of
compact subgroups that stand out by having strongly deviating means and small
spread.
- Abstract(参考訳): サブグループ発見(SD)の課題は、ターゲット属性に関して際立ったデータセットのサブセットの解釈可能な記述を見つけることである。
多数の冗長部分群をマイニングする問題に対処するため,サブグループ集合探索(SSD)が提案されている。
しかし、最先端のSSDメソッドには制限がある。
本稿では,最小記述長(MDL)の原理とサブグループリストに基づくサブグループ集合発見のための分散型問題定式化を提案する。
最適なサブグループリストは、対象の全体分布からデータを最もよく要約したものであると論じる。
我々は、焦点を1つの数値的目標変数に限定し、我々の形式化が1つの部分群を見つける際に既存の品質尺度と一致することを示すが、その追加により、部分群の品質と部分群の複雑さとのトレードオフが可能になる。
次に、SSD++を提案する。これは、優れたサブグループリストを返すことを経験的に実証するヒューリスティックアルゴリズムである。
関連論文リスト
- Clustered Orienteering Problem with Subgroups [6.961946145048321]
サブグループによるクラスター配向問題(COPS)
我々の新しい定式化は、以前の2つのよく知られた変種をモデル化し、解決する能力を持っていることを示す。
論文 参考訳(メタデータ) (2023-12-26T18:28:25Z) - Identification of Systematic Errors of Image Classifiers on Rare
Subgroups [12.064692111429494]
組織的エラーは、少数民族の公正性だけでなく、ドメインシフト時の堅牢性と安全性にも影響します。
我々は,テキスト・ツー・イメージ・モデルにおける最近の進歩を活用し,ターゲットモデルの性能が低いサブグループに対するサブグループのテキスト記述("prompts")の空間を探索する。
本稿では, PromptAttackによるサブグループカバレッジと識別可能性について検討し, 高い精度で系統的誤りを識別できることを見出した。
論文 参考訳(メタデータ) (2023-03-09T07:08:25Z) - Outlier-Robust Group Inference via Gradient Space Clustering [50.87474101594732]
既存のメソッドは、最悪のグループのパフォーマンスを改善することができるが、それらは、しばしば高価で入手できないグループアノテーションを必要とする。
モデルパラメータの勾配の空間にデータをクラスタリングすることで,アウトレーヤの存在下でグループアノテーションを学習する問題に対処する。
そこで我々は,DBSCANのような標準クラスタリング手法に適合するように,マイノリティグループや外れ値に関する情報を保存しながら,勾配空間内のデータがより単純な構造を持つことを示す。
論文 参考訳(メタデータ) (2022-10-13T06:04:43Z) - Improved Group Robustness via Classifier Retraining on Independent
Splits [6.930560177764658]
群分布的ロバスト最適化は、強力な最悪群性能を持つ学習モデルのベースラインとして広く使われている。
本稿では,トレーニングデータの独立分割に基づくリトレーニングのアイデアに基づいて,簡単な手法を設計する。
新たなサンプル分割手法を用いることで、微調整工程において、ロバストな最悪のグループ性能が得られることが判明した。
論文 参考訳(メタデータ) (2022-04-20T16:22:27Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Focus on the Common Good: Group Distributional Robustness Follows [47.62596240492509]
本稿では,多様なグループ間で共有される特徴の学習を明示的に促進する,新しい,シンプルなアルゴリズムを提案する。
グループDROは、最低の正規化損失を持つグループに焦点を当て、代わりに、他のグループでもより良いパフォーマンスを実現するグループに焦点を当てるが、共有/共通機能を学ぶことにつながる可能性がある。
論文 参考訳(メタデータ) (2021-10-06T09:47:41Z) - Just Train Twice: Improving Group Robustness without Training Group
Information [101.84574184298006]
経験的リスク最小化による標準トレーニングは、特定のグループにおける平均的かつ低い精度で高い精度を達成するモデルを生成することができる。
群分布的ロバストな最適化 (group DRO) のような、最悪のグループ精度を達成する以前のアプローチでは、トレーニングポイントごとに高価なグループアノテーションが必要である。
本稿では,複数のエポックに対して標準的なERMモデルを訓練し,第1モデルが誤分類したトレーニング例を重み付けする第2モデルを訓練する,単純な2段階のアプローチであるJTTを提案する。
論文 参考訳(メタデータ) (2021-07-19T17:52:32Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Learning Multi-Attention Context Graph for Group-Based Re-Identification [214.84551361855443]
オーバーラップしていないカメラシステムを介して人々のグループを再識別または取得することを学ぶことは、ビデオ監視において重要なアプリケーションです。
本研究では,グループre-idというグループを識別するためのコンテキスト情報の利用を検討する。
本研究では,グループベースリドタスクを同時に処理するグラフニューラルネットワークに基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T09:57:47Z) - Robust subgroup discovery [0.2578242050187029]
最小記述長原理を用いて最適ロバスト部分群発見の問題を定式化する。
RSDは、良いサブグループリストを見つけ、各イテレーションで最も重要なサブグループが追加されたことを保証します。
我々は,rsdが従来のサブグループ集合発見法を上回っている54のデータセットを,品質とサブグループリストサイズの観点から実証的に示す。
論文 参考訳(メタデータ) (2021-03-25T09:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。