論文の概要: Learning With Multi-Group Guarantees For Clusterable Subpopulations
- arxiv url: http://arxiv.org/abs/2410.14588v1
- Date: Fri, 18 Oct 2024 16:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:11.866820
- Title: Learning With Multi-Group Guarantees For Clusterable Subpopulations
- Title(参考訳): クラスタブルなサブポピュレーションのためのマルチグループ保証による学習
- Authors: Jessica Dai, Nika Haghtalab, Eric Zhao,
- Abstract要約: 予測問題に対する標準的なデシプラタムは、パフォーマンス保証が人口よりも平均的に維持されるべきである。
しかし、意味のあるサブポピュレーションを構成するものは何だろうか?
個人の分布から自然に現れるクラスターに関して、関連するサブポピュレーションは定義されるべきである。
- 参考スコア(独自算出の注目度): 14.042643978487453
- License:
- Abstract: A canonical desideratum for prediction problems is that performance guarantees should hold not just on average over the population, but also for meaningful subpopulations within the overall population. But what constitutes a meaningful subpopulation? In this work, we take the perspective that relevant subpopulations should be defined with respect to the clusters that naturally emerge from the distribution of individuals for which predictions are being made. In this view, a population refers to a mixture model whose components constitute the relevant subpopulations. We suggest two formalisms for capturing per-subgroup guarantees: first, by attributing each individual to the component from which they were most likely drawn, given their features; and second, by attributing each individual to all components in proportion to their relative likelihood of having been drawn from each component. Using online calibration as a case study, we study a \variational algorithm that provides guarantees for each of these formalisms by handling all plausible underlying subpopulation structures simultaneously, and achieve an $O(T^{1/2})$ rate even when the subpopulations are not well-separated. In comparison, the more natural cluster-then-predict approach that first recovers the structure of the subpopulations and then makes predictions suffers from a $O(T^{2/3})$ rate and requires the subpopulations to be separable. Along the way, we prove that providing per-subgroup calibration guarantees for underlying clusters can be easier than learning the clusters: separation between median subgroup features is required for the latter but not the former.
- Abstract(参考訳): 予測問題に対する標準的デシプラタムは、パフォーマンス保証は、平均的な人口だけでなく、人口全体における意味のあるサブ人口に対しても維持されるべきである、というものである。
しかし、意味のあるサブポピュレーションを構成するものは何だろうか?
本研究では,予測対象の個体分布から自然に現れるクラスターについて,関連するサブポピュレーションを定義すべきとする。
この観点では、集団は関連するサブポピュレーションを構成する成分からなる混合モデルを指す。
第一に、各個人を最も可能性の高いコンポーネントに帰属させること、第二に、各コンポーネントから引き出された相対的な確率に比例して、各個人をすべてのコンポーネントに帰属させることである。
オンラインキャリブレーションをケーススタディとして,これら各形式に対する保証を,すべてのプラルーシブルな下位サブポピュレーション構造を同時に扱うことで検討し,サブポピュレーションが十分に分離されていない場合でも,$O(T^{1/2})$レートを達成する。
対照的に、より自然なクラスタ列列予測アプローチは、まずサブポピュレーションの構造を回復し、次に$O(T^{2/3})$レートで予測し、サブポピュレーションを分離する必要がある。
その過程で、下位クラスタに対してサブグループごとのキャリブレーションを保証することは、クラスタを学習するよりも容易であることが証明された。
関連論文リスト
- A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Reweighted Mixup for Subpopulation Shift [63.1315456651771]
サブポピュレーションシフトは、多くの実世界のアプリケーションに存在し、同じサブポピュレーショングループを含むが異なるサブポピュレーション比率を持つトレーニングとテストの分布を指す。
重要度再重み付けは、サブポピュレーションシフトを処理する古典的で効果的な方法である。
我々は、オーバーフィッティング問題を緩和するために、reweighted mixupと呼ばれるシンプルで実用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T03:44:50Z) - Modeling and Forecasting COVID-19 Cases using Latent Subpopulations [8.69240208462227]
新型コロナウイルス感染者数を時間とともにモデル化する2つの新しい方法を提案する。
メソッド#1は辞書ベースのアプローチであり、多くの事前定義されたサブポピュレーションモデルから始まる。
メソッド#2はM$の混合可能な曲線であり、M$、使用するサブポピュレーションの数である$M$は、ユーザによって与えられる。
論文 参考訳(メタデータ) (2023-02-09T18:33:41Z) - KL Divergence Estimation with Multi-group Attribution [25.7757954754825]
Kullback-Leibler (KL) の2つの分布間のばらつきを推定することは、機械学習と情報理論においてよく研究されている。
マルチグループフェアネスを考慮し、サブ人口の寄与を正確に反映したKL分散推定を求める。
論文 参考訳(メタデータ) (2022-02-28T06:54:10Z) - Exact Recovery in the General Hypergraph Stochastic Block Model [92.28929858529679]
本稿では,d-uniform hypergraph block model(d-HSBM)の正確な回復の基本的な限界について検討する。
精度の高いしきい値が存在し、正確な回復がしきい値の上に達成でき、その下には不可能であることを示す。
論文 参考訳(メタデータ) (2021-05-11T03:39:08Z) - Robust subgroup discovery [0.2578242050187029]
最小記述長原理を用いて最適ロバスト部分群発見の問題を定式化する。
RSDは、良いサブグループリストを見つけ、各イテレーションで最も重要なサブグループが追加されたことを保証します。
我々は,rsdが従来のサブグループ集合発見法を上回っている54のデータセットを,品質とサブグループリストサイズの観点から実証的に示す。
論文 参考訳(メタデータ) (2021-03-25T09:04:13Z) - Selective Classification Can Magnify Disparities Across Groups [89.14499988774985]
選択的分類は平均的精度を向上させることができるが、既存の精度格差を同時に増大させることができる。
禁忌の増大は、一部のグループでのアキュラシーを減少させることもある。
我々は,グループ間で類似のフルカバレッジ精度を実現する分散ロバストモデルを訓練し,選択分類が各グループを均一に改善することを示す。
論文 参考訳(メタデータ) (2020-10-27T08:51:30Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Cumulative deviation of a subpopulation from the full population [0.0]
サブ人口の扱いにおける株式の評価には、全人口のすべての個人に数値的な「スコア」を割り当てることがしばしば必要である。
このようなスコアが与えられた場合、同様のスコアを持つ個人は、サブポピュレーションにおける個人のメンバーシップとは独立して、同様の結果が得られるかもしれないし、得られないかもしれない。
累積プロットは、グラフのセカント線の傾斜線として、サブポピュレーション偏差を直接エンコードする。
論文 参考訳(メタデータ) (2020-08-04T19:30:02Z) - Distributionally Robust Losses for Latent Covariate Mixtures [28.407773942857148]
与えられたサイズの全てのサブポピュレーションに対して最悪のケース性能を制御する凸手順を提案する。
我々は, 語彙的類似性, ワイン品質, リシディミズム予測タスクを観察し, 最悪のケースでは, 未知のサブ集団に対して良好に作用するモデルを学習する。
論文 参考訳(メタデータ) (2020-07-28T04:16:27Z) - Survival Cluster Analysis [93.50540270973927]
異なるリスクプロファイルを持つサブポピュレーションを特定するために、生存分析には未解決の必要性がある。
このニーズに対処するアプローチは、個々の成果のキャラクタリゼーションを改善する可能性が高い。
論文 参考訳(メタデータ) (2020-02-29T22:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。