論文の概要: Learning Exceptional Subgroups by End-to-End Maximizing KL-divergence
- arxiv url: http://arxiv.org/abs/2402.12930v1
- Date: Tue, 20 Feb 2024 11:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:44:19.893075
- Title: Learning Exceptional Subgroups by End-to-End Maximizing KL-divergence
- Title(参考訳): KL分割の最大化による例外部分群学習
- Authors: Sascha Xu, Nils Philipp Walter, Janis Kalofolias, Jilles Vreeken
- Abstract要約: Syflowは、例外的なサブポピュレーションを見つけるための、エンドツーエンドの最適化可能なアプローチである。
我々は、Syflowが洞察に富んだ説明を伴う非常に例外的な部分群を確実に見つけることを示す。
- 参考スコア(独自算出の注目度): 32.98328133998099
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Finding and describing sub-populations that are exceptional regarding a
target property has important applications in many scientific disciplines, from
identifying disadvantaged demographic groups in census data to finding
conductive molecules within gold nanoparticles. Current approaches to finding
such subgroups require pre-discretized predictive variables, do not permit
non-trivial target distributions, do not scale to large datasets, and struggle
to find diverse results.
To address these limitations, we propose Syflow, an end-to-end optimizable
approach in which we leverage normalizing flows to model arbitrary target
distributions, and introduce a novel neural layer that results in easily
interpretable subgroup descriptions. We demonstrate on synthetic and real-world
data, including a case study, that Syflow reliably finds highly exceptional
subgroups accompanied by insightful descriptions.
- Abstract(参考訳): ターゲット特性に関して例外的なサブ人口の発見と記述は、国勢調査データに不利な人口集団を特定することから、金ナノ粒子中の導電性分子を見つけることまで、多くの科学分野において重要な応用である。
このようなサブグループを見つけるための現在のアプローチは、事前離散化された予測変数を必要とし、非自明なターゲット分布を許可せず、大規模なデータセットにスケールせず、多様な結果を見つけるのに苦労している。
このような制約に対処するために,我々は,フローの正規化を利用して任意のターゲット分布をモデル化するエンドツーエンド最適化手法であるsyflowを提案する。
ケーススタディを含む合成および実世界のデータについて、Syflowは洞察に富んだ説明を伴う非常に例外的なサブグループを確実に見つけることを実証する。
関連論文リスト
- Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Multi-dimensional domain generalization with low-rank structures [18.565189720128856]
統計的および機械学習の手法では、テストデータがトレーニングデータと同一に分散されていると仮定されるのが一般的である。
この仮定は必ずしも成り立たないが、特にトレーニングデータに対象の個体群がよく表現されていないアプリケーションでは顕著である。
線形回帰モデルにおいて,この問題に対処するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-18T08:07:58Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Understanding the Distributions of Aggregation Layers in Deep Neural
Networks [8.784438985280092]
集約関数は、よりコンパクトな表現に深い特徴を統合するための重要なメカニズムである。
特に、DNNの出力層へのグローバルアグリゲーション層の近接は、集約された特徴がディープネットの性能に直接的な影響を与えることを意味する。
本稿では,深い特徴集約に関わるレイヤの出力値の確率分布を解析的にモデル化する,新しい数学的定式化を提案する。
論文 参考訳(メタデータ) (2021-07-09T14:23:57Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Deep Conditional Gaussian Mixture Model for Constrained Clustering [7.070883800886882]
制約付きクラスタリングは、部分的にラベル付けされたデータの増加量に関する事前情報を利用することができる。
本稿では、直感的で解釈可能で、勾配変動推論の枠組みで効率的に訓練できる制約付きクラスタリングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T13:38:09Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。