論文の概要: Evaluating Model Bias Requires Characterizing its Mistakes
- arxiv url: http://arxiv.org/abs/2407.10633v1
- Date: Mon, 15 Jul 2024 11:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:31:11.857431
- Title: Evaluating Model Bias Requires Characterizing its Mistakes
- Title(参考訳): モデルバイアスの評価 : ミスのキャラクタリゼーション
- Authors: Isabela Albuquerque, Jessica Schrouff, David Warde-Farley, Taylan Cemgil, Sven Gowal, Olivia Wiles,
- Abstract要約: スキューサイズ(SkewSize)は、モデルの予測における誤りからバイアスを捉える、原則付きフレキシブルなメトリクスである。
マルチクラスの設定で使用したり、生成モデルのオープンな語彙設定に一般化することができる。
合成データで訓練された標準的な視覚モデル、ImageNetで訓練された視覚モデル、BLIP-2ファミリーの大規模視覚言語モデルなどである。
- 参考スコア(独自算出の注目度): 19.777130236160712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to properly benchmark model performance in the face of spurious correlations is important to both build better predictors and increase confidence that models are operating as intended. We demonstrate that characterizing (as opposed to simply quantifying) model mistakes across subgroups is pivotal to properly reflect model biases, which are ignored by standard metrics such as worst-group accuracy or accuracy gap. Inspired by the hypothesis testing framework, we introduce SkewSize, a principled and flexible metric that captures bias from mistakes in a model's predictions. It can be used in multi-class settings or generalised to the open vocabulary setting of generative models. SkewSize is an aggregation of the effect size of the interaction between two categorical variables: the spurious variable representing the bias attribute and the model's prediction. We demonstrate the utility of SkewSize in multiple settings including: standard vision models trained on synthetic data, vision models trained on ImageNet, and large scale vision-and-language models from the BLIP-2 family. In each case, the proposed SkewSize is able to highlight biases not captured by other metrics, while also providing insights on the impact of recently proposed techniques, such as instruction tuning.
- Abstract(参考訳): 素早い相関に直面するモデル性能を適切にベンチマークする能力は、より良い予測器を構築し、モデルが意図した通りに動作しているという自信を高めることが重要である。
モデル誤りの特徴付け(単純な定量化とは対照的に)は、モデルバイアスを適切に反映するために重要であり、最悪のグループ精度や精度ギャップといった標準的な指標によって無視される。
仮説テストフレームワークにインスパイアされたSkewSizeは、モデルの予測における誤りからバイアスを捉える、原則付きフレキシブルなメトリクスである。
マルチクラスの設定で使用したり、生成モデルのオープンな語彙設定に一般化することができる。
SkewSizeは2つのカテゴリ変数間の相互作用の効果サイズ、すなわちバイアス属性を表すスパイラス変数とモデルの予測の集合である。
合成データで訓練された標準的な視覚モデル、ImageNetで訓練された視覚モデル、BLIP-2ファミリーの大規模視覚言語モデルなどである。
いずれの場合も、提案したSkewSizeは、他のメトリクスが捉えないバイアスを強調しつつ、命令チューニングのような最近提案されたテクニックの影響についての洞察を提供することができる。
関連論文リスト
- CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Variation of Gender Biases in Visual Recognition Models Before and After
Finetuning [29.55318393877906]
本稿では,下流タスクにおける大規模視覚認識モデルの微調整前後のバイアスの変化を計測するフレームワークを提案する。
ImageNet-21kのようなデータセットでトレーニングされた教師付きモデルは、事前学習されたバイアスを保持する傾向にある。
また、大規模データセットに微調整されたモデルでは、新しいバイアス付きアソシエーションを導入する可能性が高くなることもわかりました。
論文 参考訳(メタデータ) (2023-03-14T03:42:47Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - A Gating Model for Bias Calibration in Generalized Zero-shot Learning [18.32369721322249]
汎用ゼロショット学習(GZSL)は,補助情報のみを用いることで,見つからないクラスデータに一般化できるモデルを訓練することを目的とする。
GZSLの主な課題の1つは、トレーニング中に利用可能なクラスデータのみに過度に適合することに起因する、見かけたクラスに対するバイアス付きモデル予測である。
GZSLのための2ストリームオートエンコーダに基づくゲーティングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T16:41:06Z) - Training Experimentally Robust and Interpretable Binarized Regression
Models Using Mixed-Integer Programming [3.179831861897336]
マルチクラス分類タスクに対するロバストかつ解釈可能な二項化回帰モデルをトレーニングするためのモデルに基づくアプローチを提案する。
MIPモデルは、重み付けされた目的を用いて予測マージンとモデルサイズを最適化する。
MIPを用いた頑健かつ解釈可能な二項化回帰モデルのトレーニングの有効性を示す。
論文 参考訳(メタデータ) (2021-12-01T11:53:08Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - A Causal Lens for Peeking into Black Box Predictive Models: Predictive
Model Interpretation via Causal Attribution [3.3758186776249928]
予測モデルがブラックボックスであるような設定でこの問題に対処することを目指している。
我々は、ブラックボックス予測モデルをモデル出力に対する各モデル入力の因果効果を推定する問題と比較する。
モデル入力に対するモデル出力に対する責任の因果関係が、予測モデルを解釈し、その予測を説明するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-01T23:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。