論文の概要: Data Feedback Loops: Model-driven Amplification of Dataset Biases
- arxiv url: http://arxiv.org/abs/2209.03942v1
- Date: Thu, 8 Sep 2022 17:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:27:24.279456
- Title: Data Feedback Loops: Model-driven Amplification of Dataset Biases
- Title(参考訳): データフィードバックループ:データセットバイアスのモデル駆動型増幅
- Authors: Rohan Taori and Tatsunori B. Hashimoto
- Abstract要約: 我々は、あるモデルとのインタラクションを履歴として記録し、将来トレーニングデータとしてスクラップ化するシステムを定式化する。
テスト時間偏差統計に対する変化を追跡することによって、その安定性を経時的に分析する。
バイアス増幅の度合いは、モデルの出力がトレーニング分布のサンプルのように振る舞うかどうかと密接に関連していることがわかった。
- 参考スコア(独自算出の注目度): 9.773315369593876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets scraped from the internet have been critical to the successes of
large-scale machine learning. Yet, this very success puts the utility of future
internet-derived datasets at potential risk, as model outputs begin to replace
human annotations as a source of supervision.
In this work, we first formalize a system where interactions with one model
are recorded as history and scraped as training data in the future. We then
analyze its stability over time by tracking changes to a test-time bias
statistic (e.g. gender bias of model predictions). We find that the degree of
bias amplification is closely linked to whether the model's outputs behave like
samples from the training distribution, a behavior which we characterize and
define as consistent calibration. Experiments in three conditional prediction
scenarios - image classification, visual role-labeling, and language generation
- demonstrate that models that exhibit a sampling-like behavior are more
calibrated and thus more stable. Based on this insight, we propose an
intervention to help calibrate and stabilize unstable feedback systems.
Code is available at https://github.com/rtaori/data_feedback.
- Abstract(参考訳): インターネットから取り除かれたデータセットは、大規模な機械学習の成功に不可欠である。
しかし、モデル出力が人間のアノテーションを監督の源として置き換えるようになると、この成功は将来のインターネット由来のデータセットの有用性を潜在的に危険にさらすことになる。
本研究では,まず,あるモデルとのインタラクションを履歴として記録し,将来トレーニングデータとしてスクラップ化するシステムについて述べる。
次に,テスト時バイアス統計(モデル予測のジェンダーバイアスなど)の変更を追跡することで,時間とともにその安定性を分析する。
バイアス増幅の程度は、モデルの出力がトレーニング分布からサンプルのように振る舞うか、すなわち一貫したキャリブレーションとして特徴付け、定義する行動と密接に関連していることがわかった。
画像分類、視覚ロールラベル、言語生成の3つの条件付き予測シナリオにおける実験は、サンプリングのような振る舞いを示すモデルはより校正され、したがってより安定していることを示している。
この知見に基づき,不安定なフィードバックシステムの校正と安定化を支援する介入を提案する。
コードはhttps://github.com/rtaori/data_feedbackで入手できる。
関連論文リスト
- Model Debiasing by Learnable Data Augmentation [19.625915578646758]
本稿では,トレーニングを正規化可能なデータ拡張戦略を備えた,新しい2段階学習パイプラインを提案する。
合成および現実的なバイアス付きデータセットの実験は、最先端の分類精度を示し、競合する手法より優れている。
論文 参考訳(メタデータ) (2024-08-09T09:19:59Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - Variation of Gender Biases in Visual Recognition Models Before and After
Finetuning [29.55318393877906]
本稿では,下流タスクにおける大規模視覚認識モデルの微調整前後のバイアスの変化を計測するフレームワークを提案する。
ImageNet-21kのようなデータセットでトレーニングされた教師付きモデルは、事前学習されたバイアスを保持する傾向にある。
また、大規模データセットに微調整されたモデルでは、新しいバイアス付きアソシエーションを導入する可能性が高くなることもわかりました。
論文 参考訳(メタデータ) (2023-03-14T03:42:47Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Sampling Bias Correction for Supervised Machine Learning: A Bayesian
Inference Approach with Practical Applications [0.0]
本稿では,データセットがラベルの不均衡などの意図的なサンプルバイアスを受ける可能性がある問題について議論する。
次に、この解をバイナリロジスティック回帰に適用し、データセットが意図的にサンプルバイアスを受けるシナリオについて議論する。
この手法は, 医療科学から画像認識, マーケティングに至るまで, ビッグデータの統計的推測に広く応用できる。
論文 参考訳(メタデータ) (2022-03-11T20:46:37Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。