論文の概要: Adaptive Sampling Strategies to Construct Equitable Training Datasets
- arxiv url: http://arxiv.org/abs/2202.01327v1
- Date: Mon, 31 Jan 2022 19:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-05 06:18:32.847569
- Title: Adaptive Sampling Strategies to Construct Equitable Training Datasets
- Title(参考訳): 等価トレーニングデータセット構築のための適応サンプリング戦略
- Authors: William Cai, Ro Encarnacion, Bobbie Chern, Sam Corbett-Davies, Miranda
Bogen, Stevie Bergman, Sharad Goel
- Abstract要約: コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.7036032466145111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In domains ranging from computer vision to natural language processing,
machine learning models have been shown to exhibit stark disparities, often
performing worse for members of traditionally underserved groups. One factor
contributing to these performance gaps is a lack of representation in the data
the models are trained on. It is often unclear, however, how to operationalize
representativeness in specific applications. Here we formalize the problem of
creating equitable training datasets, and propose a statistical framework for
addressing this problem. We consider a setting where a model builder must
decide how to allocate a fixed data collection budget to gather training data
from different subgroups. We then frame dataset creation as a constrained
optimization problem, in which one maximizes a function of group-specific
performance metrics based on (estimated) group-specific learning rates and
costs per sample. This flexible approach incorporates preferences of
model-builders and other stakeholders, as well as the statistical properties of
the learning task. When data collection decisions are made sequentially, we
show that under certain conditions this optimization problem can be efficiently
solved even without prior knowledge of the learning rates. To illustrate our
approach, we conduct a simulation study of polygenic risk scores on synthetic
genomic data -- an application domain that often suffers from
non-representative data collection. We find that our adaptive sampling strategy
outperforms several common data collection heuristics, including equal and
proportional sampling, demonstrating the value of strategic dataset design for
building equitable models.
- Abstract(参考訳): コンピュータビジョンから自然言語処理まで幅広い分野において、機械学習のモデルは非常に異なることが示されており、伝統的に保存されていないグループのメンバーにとってパフォーマンスが悪くなることが多い。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータの表現不足である。
しかし、特定のアプリケーションでどのように代表性を運用するかはしばしば不明である。
本稿では,等価なトレーニングデータセットを作成する問題を定式化し,この問題に対処するための統計的枠組みを提案する。
モデルビルダーは、異なるサブグループからトレーニングデータを収集するために、固定データ収集予算を割り当てる方法を決定する必要がある。
次に、制約付き最適化問題としてデータセット作成をフレーム化し、グループ固有の学習率とサンプルあたりのコストに基づいてグループ固有のパフォーマンス指標の関数を最大化する。
この柔軟なアプローチには、モデルビルダーや他の利害関係者の好みや、学習タスクの統計的性質が含まれる。
データ収集決定が逐次行われると、ある条件下では、学習率の事前知識がなくても、この最適化問題を効率的に解けることを示す。
このアプローチを説明するために、我々は合成ゲノムデータ(非表現的データ収集に悩まされることが多いアプリケーション領域)のポリジェニックリスクスコアのシミュレーション研究を行う。
適応的サンプリング戦略は、等比例サンプリングを含む複数の一般的なデータ収集ヒューリスティックスより優れており、等価モデルを構築するための戦略的データセット設計の価値を示す。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - The Data Addition Dilemma [4.869513274920574]
医療タスクのための多くの機械学習では、標準データセットは、多くの、基本的に異なるソースにまたがるデータを集約することによって構築される。
しかし、いつより多くのデータを追加することが助けになるのか、いつ、実際の設定で望ましいモデル結果の進行を妨げるのか?
この状況をtextitData Addition Dilemma と認識し、このマルチソーススケーリングコンテキストにトレーニングデータを追加すると、全体的な精度が低下し、不確実なフェアネスの結果が減少し、最悪のサブグループのパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2024-08-08T01:42:31Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z) - A Topological-Framework to Improve Analysis of Machine Learning Model
Performance [5.3893373617126565]
本稿では、データセットをモデルが動作する「空間」として扱う機械学習モデルを評価するためのフレームワークを提案する。
本稿では,各サブポピュレーション間でのモデル性能の保存と解析に有用なトポロジカルデータ構造であるプレシーブについて述べる。
論文 参考訳(メタデータ) (2021-07-09T23:11:13Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Model-specific Data Subsampling with Influence Functions [37.64859614131316]
トレーニングポイントが様々な影響を持つ場合、ランダムサンプリングよりも優れたモデル固有データサブサンプリング戦略を開発する。
具体的には、影響関数を活用して、選択戦略をガイドし、理論的に証明し、我々のアプローチが素早く高品質なモデルを選択することを実証する。
論文 参考訳(メタデータ) (2020-10-20T12:10:28Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。