論文の概要: Pinpointing Why Object Recognition Performance Degrades Across Income
Levels and Geographies
- arxiv url: http://arxiv.org/abs/2304.05391v1
- Date: Tue, 11 Apr 2023 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 13:49:55.287791
- Title: Pinpointing Why Object Recognition Performance Degrades Across Income
Levels and Geographies
- Title(参考訳): オブジェクト認識のパフォーマンスが収入レベルや地理的に低下する理由
- Authors: Laura Gustafson, Megan Richards, Melissa Hall, Caner Hazirbas, Diane
Bouchacourt, Mark Ibrahim
- Abstract要約: 深層学習システムのパフォーマンスは、地理的に大きく低下し、低所得層となっている。
私たちは、地理的および経済的に多様な画像の一般的なベンチマークであるDollar Streetの画像に注釈を付けることで、この方向に一歩踏み出した。
これらのアノテーションは、収入や地域によってオブジェクトがどのように異なるかという、新たな粒度のビューを解き放つ。
次に、これらのオブジェクトの違いを使用して、収入と地域をまたいだモデルの脆弱性を特定します。
- 参考スコア(独自算出の注目度): 8.408398153073096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive advances in object-recognition, deep learning systems'
performance degrades significantly across geographies and lower income levels
raising pressing concerns of inequity. Addressing such performance gaps remains
a challenge, as little is understood about why performance degrades across
incomes or geographies. We take a step in this direction by annotating images
from Dollar Street, a popular benchmark of geographically and economically
diverse images, labeling each image with factors such as color, shape, and
background. These annotations unlock a new granular view into how objects
differ across incomes and regions. We then use these object differences to
pinpoint model vulnerabilities across incomes and regions. We study a range of
modern vision models, finding that performance disparities are most associated
with differences in texture, occlusion, and images with darker lighting. We
illustrate how insights from our factor labels can surface mitigations to
improve models' performance disparities. As an example, we show that mitigating
a model's vulnerability to texture can improve performance on the lower income
level. We release all the factor annotations along with an interactive
dashboard to facilitate research into more equitable vision systems.
- Abstract(参考訳): 物体認識の進歩にもかかわらず、深層学習システムのパフォーマンスは地理的に著しく低下し、低所得層は不平等に対する懸念を高めている。
このようなパフォーマンスギャップに対処することは、収入や地理的にパフォーマンスが劣化する理由についてはほとんど理解されていないため、依然として課題である。
地理的および経済的に多様な画像の人気のあるベンチマークである dollar street の画像に、色、形状、背景などの要素をラベル付けすることで、この方向への一歩を踏み出します。
これらのアノテーションは、収入と地域間でオブジェクトがどのように異なるかという、新しい粒度の視点を解き放ちます。
次に、これらのオブジェクトの違いを使って、収入と地域にわたるモデルの脆弱性を特定します。
現代の視覚モデルについて検討し, テクスチャ, 咬合, および暗い照明のイメージの違いにパフォーマンスの差が最も関係していることを見いだした。
当社のファクタラベルからの洞察がモデルのパフォーマンス格差を改善するための緩和策を浮き彫りにする方法について説明します。
例えば、モデルの脆弱性をテクスチャに緩和することで、低所得レベルのパフォーマンスが向上することを示す。
我々は、より公平な視覚システムの研究を容易にするために、インタラクティブなダッシュボードとともに、すべてのファクタアノテーションをリリースする。
関連論文リスト
- Semi-LLIE: Semi-supervised Contrastive Learning with Mamba-based Low-light Image Enhancement [59.17372460692809]
本研究は、平均教師による半教師付き低照度強化(Semi-LLIE)フレームワークを提案する。
照度分布を忠実に伝達するために、意味認識によるコントラスト損失を導入し、自然色による画像の強調に寄与する。
また,大規模な視覚言語認識モデル(RAM)に基づく新たな知覚損失を提案し,よりリッチなテキストによる画像生成を支援する。
論文 参考訳(メタデータ) (2024-09-25T04:05:32Z) - Indoor scene recognition from images under visual corruptions [3.4861209026118836]
本稿では,マルチモーダルデータ融合を利用した屋内シーン認識への革新的アプローチを提案する。
グラフ畳み込みネットワーク(GCN)を用いて,CNNモデルから意味字幕を合成する2つのマルチモーダルネットワークについて検討した。
本研究では,Places365データセットの破損したサブセットに対して評価した場合,Top-1の精度が顕著に向上し,モデル性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-08-23T12:35:45Z) - Bridging the Digital Divide: Performance Variation across Socio-Economic
Factors in Vision-Language Models [31.868468221653025]
異なる収入値に関連付けられた世帯画像を含むジオディバースデータセット上での視覚言語モデル(CLIP)の性能を評価する。
以上の結果から,貧しいグループに対するパフォーマンスは,様々なトピックや国における富裕層よりも一貫して低いことが示唆された。
論文 参考訳(メタデータ) (2023-11-09T21:10:52Z) - Mitigating Bias: Enhancing Image Classification by Improving Model
Explanations [9.791305104409057]
ディープラーニングモデルは、画像の背景にあるシンプルで容易に識別できる特徴に大きく依存する傾向がある。
モデルに十分な注意を前景に割り当てるよう促すメカニズムを導入する。
本研究は,画像内の主概念の理解と表現を高める上で,前景の注意が重要であることを明らかにする。
論文 参考訳(メタデータ) (2023-07-04T04:46:44Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Towards Reliable Assessments of Demographic Disparities in Multi-Label
Image Classifiers [11.973749734226852]
マルチラベル画像分類と,特に対象分類タスクについて検討する。
測定のための設計選択とトレードオフは、以前のコンピュータビジョン文学で議論されたよりもニュアンスが高い。
実装の詳細にだけ似ているが、評価の結論に大きな影響を及ぼすいくつかの設計選択を特定します。
論文 参考訳(メタデータ) (2023-02-16T20:34:54Z) - Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery [19.93324644519412]
土地被覆の特徴の特定における都市と農村の格差のリスクを考察する。
本稿では,畳み込みニューラルネットワークモデルの多レベル潜在空間を非バイアス化する手法として,コントラッシブラーニングを用いた高密度表現(FairDCL)を提案する。
得られた画像表現は、下流の都市と農村の予測格差を軽減し、現実の衛星画像の最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-16T04:59:46Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。
本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。
提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文 参考訳(メタデータ) (2021-02-14T05:28:13Z) - Stereopagnosia: Fooling Stereo Networks with Adversarial Perturbations [71.00754846434744]
知覚不能な加法的摂動は,差分マップを著しく変更できることを示す。
敵データ拡張に使用すると、我々の摂動はより堅牢なトレーニングされたモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2020-09-21T19:20:09Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。