論文の概要: D3G: Diverse Demographic Data Generation Increases Zero-Shot Image Classification Accuracy within Multimodal Models
- arxiv url: http://arxiv.org/abs/2512.15747v1
- Date: Wed, 10 Dec 2025 20:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.653995
- Title: D3G: Diverse Demographic Data Generation Increases Zero-Shot Image Classification Accuracy within Multimodal Models
- Title(参考訳): D3G: マルチモーダルモデルにおけるゼロショット画像分類精度の向上
- Authors: Javon Hickmon,
- Abstract要約: 本稿では,事前学習型マルチモーダルモデルにおける階層バイアスを低減しつつ,分類精度を高める訓練自由ゼロショット手法を提案する。
推定時に多様な人口統計データを提供することで、これらのモデルの性能が向上することを示し、その結果の精度指標に対する個々の人口統計の影響を探索する。
- 参考スコア(独自算出の注目度): 4.56877715768796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image classification is a task essential for machine perception to achieve human-level image understanding. Multimodal models such as CLIP have been able to perform well on this task by learning semantic similarities across vision and language; however, despite these advances, image classification is still a challenging task. Models with low capacity often suffer from underfitting and thus underperform on fine-grained image classification. Along with this, it is important to ensure high-quality data with rich cross-modal representations of each class, which is often difficult to generate. When datasets do not enforce balanced demographics, the predictions will be biased toward the more represented class, while others will be neglected. We focus on how these issues can lead to harmful bias for zero-shot image classification, and explore how to combat these issues in demographic bias. We propose Diverse Demographic Data Generation (D3G), a training-free, zero-shot method of boosting classification accuracy while reducing demographic bias in pre-trained multimodal models. With this method, we utilize CLIP as our base multimodal model and Stable Diffusion XL as our generative model. We demonstrate that providing diverse demographic data at inference time improves performance for these models, and explore the impact of individual demographics on the resulting accuracy metric.
- Abstract(参考訳): 画像分類は、人間レベルの画像理解を達成するために、機械認識に不可欠な課題である。
CLIPのようなマルチモーダルモデルは、視覚と言語間のセマンティックな類似性を学習することで、このタスクでうまく機能するが、これらの進歩にもかかわらず、画像分類は依然として難しい課題である。
キャパシティの低いモデルは、しばしば不適合に苦しむため、きめ細かい画像分類では性能が劣る。
これに加えて、各クラスのリッチなクロスモーダル表現による高品質なデータを保証することが重要である。
データセットがバランスの取れた人口統計を強制しない場合、予測はより表現されたクラスに偏り、他は無視される。
我々は、これらの問題がゼロショット画像分類の有害バイアスにどのように結びつくかに注目し、人口統計学的バイアスにおいてこれらの問題にどのように対処するかを探る。
D3G(Diverse Demographic Data Generation)は、事前学習したマルチモーダルモデルにおける人口統計バイアスを低減しつつ、分類精度を向上する訓練不要ゼロショット手法である。
本手法では,CLIPを基本マルチモーダルモデルとし,安定拡散XLを生成モデルとする。
推定時に多様な人口統計データを提供することで、これらのモデルの性能が向上することを示し、その結果の精度指標に対する個々の人口統計の影響を探索する。
関連論文リスト
- Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Classes Are Not Equal: An Empirical Study on Image Recognition Fairness [100.36114135663836]
我々は,クラスが等しくないことを実験的に証明し,様々なデータセットにまたがる画像分類モデルにおいて,公平性の問題が顕著であることを示した。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
データ拡張および表現学習アルゴリズムは、画像分類のある程度の公平性を促進することにより、全体的なパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T07:54:50Z) - Leveraging Diffusion Perturbations for Measuring Fairness in Computer
Vision [25.414154497482162]
拡散モデルを利用してそのようなデータセットを作成できることを実証する。
マルチクラスの職業分類タスクにおいて,複数の視覚言語モデルをベンチマークする。
非コーカサスラベルで生成された画像は、コーカサスラベルで生成された画像よりも、職業的誤分類率が高いことが判明した。
論文 参考訳(メタデータ) (2023-11-25T19:40:13Z) - Addressing Weak Decision Boundaries in Image Classification by
Leveraging Web Search and Generative Models [14.732229124148596]
多くの大きな問題は、機械学習モデルが、表現不足なグループに対して等しくうまく機能しないことである。
本稿では,Web検索と生成モデルのパワーを活用して,識別モデルの欠点を緩和する手法を提案する。
本研究では, 脆弱な個体群に対して本手法を実証するが, 提案手法は幅広い問題や領域に拡張可能である。
論文 参考訳(メタデータ) (2023-10-30T20:04:50Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Unravelling the Effect of Image Distortions for Biased Prediction of
Pre-trained Face Recognition Models [86.79402670904338]
画像歪みの存在下での4つの最先端深層顔認識モデルの性能評価を行った。
我々は、画像歪みが、異なるサブグループ間でのモデルの性能ギャップと関係していることを観察した。
論文 参考訳(メタデータ) (2021-08-14T16:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。