論文の概要: Scaling for Fairness? Analyzing Model Size, Data Composition, and Multilinguality in Vision-Language Bias
- arxiv url: http://arxiv.org/abs/2501.13223v1
- Date: Wed, 22 Jan 2025 21:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:17:07.119432
- Title: Scaling for Fairness? Analyzing Model Size, Data Composition, and Multilinguality in Vision-Language Bias
- Title(参考訳): フェアネスのためのスケーリング : ビジョンランゲージバイアスにおけるモデルサイズ,データ構成,多言語性の分析
- Authors: Zahraa Al Sahili, Ioannis Patras, Matthew Purver,
- Abstract要約: 人気のVLMであるCLIPとそのオープンソース版において,データセット構成,モデルサイズ,多言語学習が性別や人種的偏見に与える影響について検討した。
社会的認知バイアスを評価するために,社会的に帯電した用語を特徴とする顔画像のゼロショット性能を測定した。
- 参考スコア(独自算出の注目度): 14.632649933582648
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large-scale vision-language models (VLMs) become increasingly central to modern AI applications, understanding and mitigating social biases in these systems has never been more critical.We investigate how dataset composition, model size, and multilingual training affect gender and racial bias in a popular VLM, CLIP, and its open-source variants. In particular, we systematically evaluate models trained on varying dataset scales and architectures, as well as multilingual versions encompassing English along with Persian, Turkish, and Finnish, languages with minimal gender marking. To assess social perception bias, we measure the zero-shot performance on face images featuring socially charged terms rooted in the psychological constructs of communion and agency, and demographic labeling bias using both the FairFace and PATA datasets. Our findings reveal three key insights. First, while larger training datasets can mitigate some biases, they may also introduce or amplify others when the data composition is imbalanced. Second, although increasing model size generally improves performance, it does not consistently reduce bias and can, in certain cases, exacerbate it. Finally, while multilingual training broadens linguistic coverage, it does not inherently neutralize bias and can transfer or intensify inequities across languages. Taken together, these results highlight the necessity of inclusive, carefully curated training data to foster fairness rather than relying solely on model scaling or language expansion. We provide a systematic evaluation of vision language bias across diverse demographics, underscoring the urgent need for intentional bias mitigation strategies in next generation AI systems.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)が現代AIアプリケーションの中心となるにつれ、これらのシステムにおける社会的偏見の理解と緩和は、これまで以上に重要視されてきた。我々は、一般的なVLM、CLIPおよびそのオープンソース版において、データセット構成、モデルサイズ、多言語トレーニングが性別や人種的偏見にどのように影響するかを調査する。
特に、さまざまなデータセットスケールとアーキテクチャに基づいてトレーニングされたモデルと、ペルシャ語、トルコ語、フィンランド語とともに英語を含む多言語バージョンを体系的に評価した。
社会的認知バイアスを評価するために,コミュニケーションとエージェンシーの心理的構成に根ざした社会的に帯電した用語と,FairFaceとPATAの両方のデータセットを用いて階層的ラベル付けバイアスを特徴とする顔画像のゼロショット性能を測定した。
私たちの発見は3つの重要な洞察を浮き彫りにした。
まず、より大きなトレーニングデータセットはバイアスを軽減することができるが、データ構成が不均衡な場合には、他のデータセットを導入または増幅することもできる。
第二に、モデルのサイズが大きくなると一般的にパフォーマンスが向上するが、バイアスが一貫して減少せず、場合によってはさらに悪化する。
最後に、多言語訓練は言語の範囲を広げるが、本質的にバイアスを中和するわけではなく、言語間で不等式を伝達または強化することができる。
これらの結果は、モデルスケーリングや言語拡張にのみ依存するのではなく、公平性を育むために、包括的で慎重にキュレートされたトレーニングデータの必要性を強調している。
我々は,次世代AIシステムにおける意図的偏見緩和戦略の緊急的ニーズを浮き彫りにして,多様な人口層にまたがる視覚言語バイアスの体系的評価を行う。
関連論文リスト
- Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。
提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。
本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-02T15:43:13Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Dataset Scale and Societal Consistency Mediate Facial Impression Bias in Vision-Language AI [17.101569078791492]
43のCLIP視覚言語モデルを用いて、人間の顔の印象バイアスを学習するかどうかを検証した。
社会全体でバイアスが共有される度合いがCLIPモデルに反映される度合いを予測するのはこれが初めてである。
論文 参考訳(メタデータ) (2024-08-04T08:26:58Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - FairCoT: Enhancing Fairness in Text-to-Image Generation via Chain of Thought Reasoning with Multimodal Large Language Models [14.632649933582648]
思考の連鎖(CoT)推論を通じて画像モデルにテキストの公平性を高める新しいフレームワークであるFairCoTを紹介する。
また,FairCoTは画像品質や意味的忠実さを犠牲にすることなく,公平性と多様性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-06-13T12:55:10Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Fair Text-to-Image Diffusion via Fair Mapping [32.02815667307623]
本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。
暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T15:02:01Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Steering Language Generation: Harnessing Contrastive Expert Guidance and
Negative Prompting for Coherent and Diverse Synthetic Data Generation [0.0]
大規模言語モデル(LLM)は、高品質で実用性の高い合成データを生成する大きな可能性を秘めている。
本稿では,細調整された言語モデルと基本言語モデルのロジット分布の違いを強調する,対照的な専門家指導を紹介する。
STEER: Embedding Repositioningによるセマンティックテキストの強化。
論文 参考訳(メタデータ) (2023-08-15T08:49:14Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。