論文の概要: balance -- a Python package for balancing biased data samples
- arxiv url: http://arxiv.org/abs/2307.06024v2
- Date: Thu, 13 Jul 2023 09:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 10:14:13.041034
- Title: balance -- a Python package for balancing biased data samples
- Title(参考訳): balance -- 偏りのあるデータサンプルのバランスをとるpythonパッケージ
- Authors: Tal Sarig, Tal Galili, Roee Eilat
- Abstract要約: 我々はMetaによるオープンソースのPythonパッケージである Balanceを紹介し、バイアスデータサンプルを分析し、調整するためのシンプルなワークフローを提供する。
このパッケージは、研究者やデータサイエンティストがさまざまな分野のさまざまなデータから利用できるシンプルなAPIを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surveys are an important research tool, providing unique measurements on
subjective experiences such as sentiment and opinions that cannot be measured
by other means. However, because survey data is collected from a self-selected
group of participants, directly inferring insights from it to a population of
interest, or training ML models on such data, can lead to erroneous estimates
or under-performing models. In this paper we present balance, an open-source
Python package by Meta, offering a simple workflow for analyzing and adjusting
biased data samples with respect to a population of interest.
The balance workflow includes three steps: understanding the initial bias in
the data relative to a target we would like to infer, adjusting the data to
correct for the bias by producing weights for each unit in the sample based on
propensity scores, and evaluating the final biases and the variance inflation
after applying the fitted weights. The package provides a simple API that can
be used by researchers and data scientists from a wide range of fields on a
variety of data. The paper provides the relevant context, methodological
background, and presents the package's API.
- Abstract(参考訳): 調査は重要な調査ツールであり、他の手段では測定できない感情や意見などの主観的経験のユニークな測定を提供する。
しかし、調査データは、自己選択された参加者のグループから収集され、関心の集団に直接洞察を直接推論したり、そのようなデータに基づいてMLモデルを訓練したりすることで、誤った見積もりや過小評価モデルにつながる可能性がある。
本稿では,meta によるオープンソースの python パッケージである balance について述べる。興味のある人に対して偏りのあるデータサンプルを解析・調整するための簡単なワークフローを提供する。
バランスワークフローには、3つのステップがある: ターゲットに対するデータの初期バイアスを理解し、適合度スコアに基づいてサンプルの各ユニットの重みを生成してバイアスを正すようにデータを調整し、装着した重みを適用した後の最終的なバイアスと分散インフレーションを評価する。
このパッケージは、研究者やデータサイエンティストがさまざまな分野のさまざまなデータから利用できるシンプルなAPIを提供する。
本稿では,関連するコンテキスト,方法論的背景,パッケージのAPIについて述べる。
関連論文リスト
- Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Utilizing dataset affinity prediction in object detection to assess training data [4.508868068781057]
車両データセットのヘテロジニアスプールからサンプルを自動的に選択することで、いわゆるデータセット親和性スコアの利点を示す。
その結果、物体検出器は検出精度を損なうことなく、かなりスペーサーなトレーニングサンプルで訓練できることがわかった。
論文 参考訳(メタデータ) (2023-11-16T10:45:32Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Quantifying Human Bias and Knowledge to guide ML models during Training [0.0]
トレーニングプロセスに人間を含めることで、歪んだデータセットを扱うための実験的なアプローチを導入する。
我々は、データセットの特徴の重要性をランク付けし、ランクアグリゲーションを通じて、モデルの初期重みバイアスを決定するよう人間に求める。
我々は、集団的人間の偏見によって、機械学習モデルがバイアス標本の代わりに真の人口についての洞察を学習できることを示した。
論文 参考訳(メタデータ) (2022-11-19T20:49:07Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - A Novel Dataset for Evaluating and Alleviating Domain Shift for Human
Detection in Agricultural Fields [59.035813796601055]
トレーニングセットの分布外のデータに展開した場合、ドメインシフトが、よく知られたオブジェクト検出データセット上で訓練された人間の検出モデルに与える影響を評価する。
我々は、ロボットティプラットフォームを用いて、農業ロボット応用の文脈で収集されたOpenDR Humans in Fieldデータセットを紹介した。
論文 参考訳(メタデータ) (2022-09-27T07:04:28Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Sampling Bias Correction for Supervised Machine Learning: A Bayesian
Inference Approach with Practical Applications [0.0]
本稿では,データセットがラベルの不均衡などの意図的なサンプルバイアスを受ける可能性がある問題について議論する。
次に、この解をバイナリロジスティック回帰に適用し、データセットが意図的にサンプルバイアスを受けるシナリオについて議論する。
この手法は, 医療科学から画像認識, マーケティングに至るまで, ビッグデータの統計的推測に広く応用できる。
論文 参考訳(メタデータ) (2022-03-11T20:46:37Z) - Sampling To Improve Predictions For Underrepresented Observations In
Imbalanced Data [0.0]
データ不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。
本研究では,過去の生産データに基づいてトレーニングされたモデルの性能向上を目標として,この不均衡に対応するためのサンプリングを提案する。
我々はペニシリン生産の先進的なシミュレーションから得られたバイオ医薬品製造データセットに本手法を適用した。
論文 参考訳(メタデータ) (2021-11-17T12:16:54Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。