論文の概要: FairJudge: MLLM Judging for Social Attributes and Prompt Image Alignment
- arxiv url: http://arxiv.org/abs/2510.22827v1
- Date: Sun, 26 Oct 2025 20:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.380725
- Title: FairJudge: MLLM Judging for Social Attributes and Prompt Image Alignment
- Title(参考訳): FairJudge:MLLMによるソーシャル属性の判断と画像アライメント
- Authors: Zahraa Al Sahili, Maryam Fetanat, Maimuna Nowaz, Ioannis Patras, Matthew Purver,
- Abstract要約: 命令追従型マルチモーダル LLM をフェアジャッジとして扱う軽量プロトコルである FairJudge を提案する。
これは[-1, 1]にマップされた説明指向のルーリックとアライメントし、判定をクローズドなラベル集合に制約する。
我々は、FairFace、PaTA、FairCoTで性別、人種、年齢を評価し、宗教、文化、障害者に拡張し、IdenProf、FairCoT-Professions、そして新しいDIVERSIFY-Professionsで職業の正当性と整合性を評価する。
- 参考スコア(独自算出の注目度): 24.696940838337323
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image (T2I) systems lack simple, reproducible ways to evaluate how well images match prompts and how models treat social attributes. Common proxies -- face classifiers and contrastive similarity -- reward surface cues, lack calibrated abstention, and miss attributes only weakly visible (for example, religion, culture, disability). We present FairJudge, a lightweight protocol that treats instruction-following multimodal LLMs as fair judges. It scores alignment with an explanation-oriented rubric mapped to [-1, 1]; constrains judgments to a closed label set; requires evidence grounded in the visible content; and mandates abstention when cues are insufficient. Unlike CLIP-only pipelines, FairJudge yields accountable, evidence-aware decisions; unlike mitigation that alters generators, it targets evaluation fairness. We evaluate gender, race, and age on FairFace, PaTA, and FairCoT; extend to religion, culture, and disability; and assess profession correctness and alignment on IdenProf, FairCoT-Professions, and our new DIVERSIFY-Professions. We also release DIVERSIFY, a 469-image corpus of diverse, non-iconic scenes. Across datasets, judge models outperform contrastive and face-centric baselines on demographic prediction and improve mean alignment while maintaining high profession accuracy, enabling more reliable, reproducible fairness audits.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)システムは、画像がプロンプトとどのように一致し、モデルが社会的属性をどう扱うかを評価する、シンプルで再現可能な方法がない。
一般的なプロキシ -- 顔分類器と対照的な類似性 -- は、報酬面の手がかり、校正された棄権の欠如、ミス属性は、弱い視認性(宗教、文化、障害など)のみである。
命令追従型マルチモーダル LLM をフェアジャッジとして扱う軽量プロトコルである FairJudge を提案する。
これは[-1, 1]にマッピングされた説明指向のルーリックとアライメントし、クローズドなラベルセットに判断を制約し、目に見える内容に根拠を置く証拠を必要とする。
CLIPのみのパイプラインとは異なり、FairJudgeは説明可能なエビデンス対応の意思決定をもたらす。
我々は、FairFace、PaTA、FairCoTで性別、人種、年齢を評価し、宗教、文化、障害者に拡張し、IdenProf、FairCoT-Professions、そして新しいDIVERSIFY-Professionsで職業の正当性と整合性を評価する。
また、多様で非古典的なシーンの469イメージコーパスであるDIVERSIFYをリリースしています。
データセット全体にわたって、判断モデルは、人口統計予測において対照的で顔中心のベースラインを上回り、高い専門的精度を維持しながら平均的アライメントを改善し、より信頼性が高く再現可能な公正度監査を可能にします。
関連論文リスト
- Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment [8.451522319478512]
各種コンセントから抽出された1,343枚の画像検索ペアからなるニューズ画像ベンチマークを導入する。
我々は、最先端のVLMの評価を行い、人間の検証を伴って、大きな言語モデル(LLM)を判断に用いた。
その結果, (i) 視覚的文脈は, モデル出力をオープンエンド設定で体系的に変化させる; (ii) バイアスの頻度は属性やモデルによって異なり, 特に性別や職業のリスクが高い; (iii) より高い忠実度は必ずしも低いバイアスに対応しないことがわかった。
論文 参考訳(メタデータ) (2025-09-24T00:33:58Z) - FairLENS: Assessing Fairness in Law Enforcement Speech Recognition [37.75768315119143]
本研究では,異なるモデル間の公平さの相違を検証するための,新しい適応性評価手法を提案する。
我々は1つのオープンソースと11の商用 ASR モデルに対してフェアネスアセスメントを行った。
論文 参考訳(メタデータ) (2024-05-21T19:23:40Z) - Classes Are Not Equal: An Empirical Study on Image Recognition Fairness [100.36114135663836]
我々は,クラスが等しくないことを実験的に証明し,様々なデータセットにまたがる画像分類モデルにおいて,公平性の問題が顕著であることを示した。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
データ拡張および表現学習アルゴリズムは、画像分類のある程度の公平性を促進することにより、全体的なパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T07:54:50Z) - Improving Fairness using Vision-Language Driven Image Augmentation [60.428157003498995]
公平性は、特に顔領域において、ディープラーニングの識別モデルを訓練する際に重要である。
モデルは、特定の特性(年齢や肌の色など)と無関係な属性(下流タスク)を関連付ける傾向がある
本稿では,これらの相関を緩和し,公平性を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T19:51:10Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - MixFairFace: Towards Ultimate Fairness via MixFair Adapter in Face
Recognition [37.756287362799945]
属性に基づくフェアネス尺度は顔認識には適さないと我々は主張する。
本稿では,異なるアプローチの公平性を評価するための新しい評価プロトコルを提案する。
私たちのMixFairFaceアプローチは、すべてのベンチマークデータセットで最先端のフェアネスパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-28T09:47:21Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。