論文の概要: Towards Reliable Assessments of Demographic Disparities in Multi-Label
Image Classifiers
- arxiv url: http://arxiv.org/abs/2302.08572v1
- Date: Thu, 16 Feb 2023 20:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:42:43.834717
- Title: Towards Reliable Assessments of Demographic Disparities in Multi-Label
Image Classifiers
- Title(参考訳): マルチラベル画像分類器における人口格差の信頼性評価に向けて
- Authors: Melissa Hall, Bobbie Chern, Laura Gustafson, Denisse Ventura, Harshad
Kulkarni, Candace Ross, Nicolas Usunier
- Abstract要約: マルチラベル画像分類と,特に対象分類タスクについて検討する。
測定のための設計選択とトレードオフは、以前のコンピュータビジョン文学で議論されたよりもニュアンスが高い。
実装の詳細にだけ似ているが、評価の結論に大きな影響を及ぼすいくつかの設計選択を特定します。
- 参考スコア(独自算出の注目度): 11.973749734226852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disaggregated performance metrics across demographic groups are a hallmark of
fairness assessments in computer vision. These metrics successfully
incentivized performance improvements on person-centric tasks such as face
analysis and are used to understand risks of modern models. However, there is a
lack of discussion on the vulnerabilities of these measurements for more
complex computer vision tasks. In this paper, we consider multi-label image
classification and, specifically, object categorization tasks. First, we
highlight design choices and trade-offs for measurement that involve more
nuance than discussed in prior computer vision literature. These challenges are
related to the necessary scale of data, definition of groups for images, choice
of metric, and dataset imbalances. Next, through two case studies using modern
vision models, we demonstrate that naive implementations of these assessments
are brittle. We identify several design choices that look merely like
implementation details but significantly impact the conclusions of assessments,
both in terms of magnitude and direction (on which group the classifiers work
best) of disparities. Based on ablation studies, we propose some
recommendations to increase the reliability of these assessments. Finally,
through a qualitative analysis we find that concepts with large disparities
tend to have varying definitions and representations between groups, with
inconsistencies across datasets and annotators. While this result suggests
avenues for mitigation through more consistent data collection, it also
highlights that ambiguous label definitions remain a challenge when performing
model assessments. Vision models are expanding and becoming more ubiquitous; it
is even more important that our disparity assessments accurately reflect the
true performance of models.
- Abstract(参考訳): 人口統計群にまたがる分散パフォーマンス指標は、コンピュータビジョンにおける公平性評価の指標である。
これらのメトリクスは、顔分析のような人中心のタスクのパフォーマンス改善にインセンティブを与え、現代のモデルのリスクを理解するために使われます。
しかし、より複雑なコンピュータビジョンタスクに対するこれらの測定の脆弱性については議論の余地がない。
本稿では,マルチラベル画像の分類,特にオブジェクト分類タスクについて検討する。
まず,先行するコンピュータビジョン文献で議論されるよりもニュアンスを多く含む計測のための設計選択とトレードオフを強調する。
これらの課題は、必要なデータスケール、画像のグループの定義、メトリックの選択、データセットの不均衡に関連する。
次に、現代の視覚モデルを用いた2つのケーススタディを通して、これらの評価の実装が不安定であることを示す。
我々は、実装の詳細にしか見えないが、大きさと方向(分類器が最善を尽くすグループ)の両方で評価の結論に大きな影響を与えるいくつかの設計選択を識別する。
アブレーション研究に基づいて,これらの評価の信頼性を高めるための推奨事項を提案する。
最後に、質的分析を通じて、大きな格差を持つ概念は、データセットと注釈子間で矛盾のある、グループ間の定義や表現が異なる傾向があることが分かりました。
この結果は、より一貫性のあるデータ収集による緩和の道のりを示唆する一方で、モデルアセスメントを行う際の曖昧なラベル定義が課題であることも強調している。
ビジョンモデルは拡大し、よりユビキタスになってきている。モデルの真のパフォーマンスを正確に反映することがさらに重要です。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Fairness Indicators for Systematic Assessments of Visual Feature
Extractors [21.141633753573764]
視覚系の害やバイアスの定量化を目的とした3つの公正度指標を提案する。
我々の指標は、フェアネス評価のために収集された既存の公開データセットを使用する。
これらの指標は、新しいコンピュータビジョン技術による幅広い影響の徹底的な分析の代替にはならない。
論文 参考訳(メタデータ) (2022-02-15T17:45:33Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。