論文の概要: D3G: Diverse Demographic Data Generation Increases Zero-Shot Image Classification Accuracy within Multimodal Models
- arxiv url: http://arxiv.org/abs/2512.15747v1
- Date: Wed, 10 Dec 2025 20:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.653995
- Title: D3G: Diverse Demographic Data Generation Increases Zero-Shot Image Classification Accuracy within Multimodal Models
- Title(参考訳): D3G: マルチモーダルモデルにおけるゼロショット画像分類精度の向上
- Authors: Javon Hickmon,
- Abstract要約: 本稿では,事前学習型マルチモーダルモデルにおける階層バイアスを低減しつつ,分類精度を高める訓練自由ゼロショット手法を提案する。
推定時に多様な人口統計データを提供することで、これらのモデルの性能が向上することを示し、その結果の精度指標に対する個々の人口統計の影響を探索する。
- 参考スコア(独自算出の注目度): 4.56877715768796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image classification is a task essential for machine perception to achieve human-level image understanding. Multimodal models such as CLIP have been able to perform well on this task by learning semantic similarities across vision and language; however, despite these advances, image classification is still a challenging task. Models with low capacity often suffer from underfitting and thus underperform on fine-grained image classification. Along with this, it is important to ensure high-quality data with rich cross-modal representations of each class, which is often difficult to generate. When datasets do not enforce balanced demographics, the predictions will be biased toward the more represented class, while others will be neglected. We focus on how these issues can lead to harmful bias for zero-shot image classification, and explore how to combat these issues in demographic bias. We propose Diverse Demographic Data Generation (D3G), a training-free, zero-shot method of boosting classification accuracy while reducing demographic bias in pre-trained multimodal models. With this method, we utilize CLIP as our base multimodal model and Stable Diffusion XL as our generative model. We demonstrate that providing diverse demographic data at inference time improves performance for these models, and explore the impact of individual demographics on the resulting accuracy metric.
- Abstract(参考訳): 画像分類は、人間レベルの画像理解を達成するために、機械認識に不可欠な課題である。
CLIPのようなマルチモーダルモデルは、視覚と言語間のセマンティックな類似性を学習することで、このタスクでうまく機能するが、これらの進歩にもかかわらず、画像分類は依然として難しい課題である。
キャパシティの低いモデルは、しばしば不適合に苦しむため、きめ細かい画像分類では性能が劣る。
これに加えて、各クラスのリッチなクロスモーダル表現による高品質なデータを保証することが重要である。
データセットがバランスの取れた人口統計を強制しない場合、予測はより表現されたクラスに偏り、他は無視される。
我々は、これらの問題がゼロショット画像分類の有害バイアスにどのように結びつくかに注目し、人口統計学的バイアスにおいてこれらの問題にどのように対処するかを探る。
D3G(Diverse Demographic Data Generation)は、事前学習したマルチモーダルモデルにおける人口統計バイアスを低減しつつ、分類精度を向上する訓練不要ゼロショット手法である。
本手法では,CLIPを基本マルチモーダルモデルとし,安定拡散XLを生成モデルとする。
推定時に多様な人口統計データを提供することで、これらのモデルの性能が向上することを示し、その結果の精度指標に対する個々の人口統計の影響を探索する。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Classes Are Not Equal: An Empirical Study on Image Recognition Fairness [100.36114135663836]
我々は,クラスが等しくないことを実験的に証明し,様々なデータセットにまたがる画像分類モデルにおいて,公平性の問題が顕著であることを示した。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
データ拡張および表現学習アルゴリズムは、画像分類のある程度の公平性を促進することにより、全体的なパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T07:54:50Z) - Leveraging Diffusion Perturbations for Measuring Fairness in Computer
Vision [25.414154497482162]
拡散モデルを利用してそのようなデータセットを作成できることを実証する。
マルチクラスの職業分類タスクにおいて,複数の視覚言語モデルをベンチマークする。
非コーカサスラベルで生成された画像は、コーカサスラベルで生成された画像よりも、職業的誤分類率が高いことが判明した。
論文 参考訳(メタデータ) (2023-11-25T19:40:13Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。