論文の概要: Leveraging Text Guidance for Enhancing Demographic Fairness in Gender Classification
- arxiv url: http://arxiv.org/abs/2512.11015v1
- Date: Thu, 11 Dec 2025 17:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.524307
- Title: Leveraging Text Guidance for Enhancing Demographic Fairness in Gender Classification
- Title(参考訳): ジェンダー分類におけるデモグラフィックフェアネス向上のためのテキストガイダンスの活用
- Authors: Anoop Krishnan,
- Abstract要約: 主な戦略として、画像テキストマッチング(ITM)ガイダンスと画像テキスト融合がある。
ベンチマークデータセット上で実施された調査実験は、これらのアプローチがバイアスを効果的に軽減し、既存の方法と比較して男女間における精度を向上させることを実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the quest for fairness in artificial intelligence, novel approaches to enhance it in facial image based gender classification algorithms using text guided methodologies are presented. The core methodology involves leveraging semantic information from image captions during model training to improve generalization capabilities. Two key strategies are presented: Image Text Matching (ITM) guidance and Image Text fusion. ITM guidance trains the model to discern fine grained alignments between images and texts to obtain enhanced multimodal representations. Image text fusion combines both modalities into comprehensive representations for improved fairness. Exensive experiments conducted on benchmark datasets demonstrate these approaches effectively mitigate bias and improve accuracy across gender racial groups compared to existing methods. Additionally, the unique integration of textual guidance underscores an interpretable and intuitive training paradigm for computer vision systems. By scrutinizing the extent to which semantic information reduces disparities, this research offers valuable insights into cultivating more equitable facial analysis algorithms. The proposed methodologies contribute to addressing the pivotal challenge of demographic bias in gender classification from facial images. Furthermore, this technique operates in the absence of demographic labels and is application agnostic.
- Abstract(参考訳): 人工知能における公平性の追求において,テキストガイド手法を用いた顔画像に基づく性別分類アルゴリズムにおいて,それを強化する新たなアプローチを提案する。
中心となる方法論は、モデルトレーニング中に画像キャプションからの意味情報を活用して、一般化機能を改善することである。
主な戦略として、画像テキストマッチング(ITM)ガイダンスと画像テキスト融合がある。
ITMガイダンスは、画像とテキスト間の微粒なアライメントを識別するようにモデルを訓練し、強化されたマルチモーダル表現を得る。
画像テキスト融合は、両モードを総合表現に結合し、公正性を改善する。
ベンチマークデータセット上で実施された調査実験は、これらのアプローチがバイアスを効果的に軽減し、既存の方法と比較して男女間における精度を向上させることを実証している。
さらに、テキストガイダンスのユニークな統合は、コンピュータビジョンシステムのための解釈可能で直感的なトレーニングパラダイムを基盤としている。
この研究は、意味情報が相違を減少させる程度を精査することによって、より公平な顔分析アルゴリズムの育成に関する貴重な洞察を提供する。
提案手法は、顔画像から性別分類における人口統計バイアスの重要課題に対処するために有効である。
さらに、この手法は人口統計ラベルが存在しない状態で動作し、適用に依存しない。
関連論文リスト
- FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models [10.857020427374506]
FairImagenは、社会的偏見を緩和するための迅速な埋め込みで動作する、ポストホックな脱バイアスフレームワークである。
我々のフレームワークは、既存のポストホック手法より優れており、公平なテキスト・画像生成のためのシンプルでスケーラブルでモデルに依存しないソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T11:47:15Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - Multimodal Approaches to Fair Image Classification: An Ethical Perspective [0.0]
この論文は、公正な画像分類モデルの開発における技術と倫理の交差を探求する。
私は、有害な人口統計バイアスに対処するために、複数のモダリティを使用する公平さと方法の改善に重点を置いている。
この研究は、画像データセットや分類アルゴリズムにおける既存のバイアスを批判的に検討し、これらのバイアスを緩和するための革新的な方法を提案し、そのようなシステムを現実のシナリオに展開する際の倫理的影響を評価する。
論文 参考訳(メタデータ) (2024-12-11T19:58:31Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Conditional Supervised Contrastive Learning for Fair Text Classification [59.813422435604025]
対照的な学習を通してテキスト分類のための等化オッズとして知られる公平性の概念を満たす学習公正表現について研究する。
具体的には、まず、公正性制約のある学習表現と条件付き教師付きコントラスト目的との間の関係を理論的に分析する。
論文 参考訳(メタデータ) (2022-05-23T17:38:30Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。