論文の概要: AesBiasBench: Evaluating Bias and Alignment in Multimodal Language Models for Personalized Image Aesthetic Assessment
- arxiv url: http://arxiv.org/abs/2509.11620v1
- Date: Mon, 15 Sep 2025 06:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.171546
- Title: AesBiasBench: Evaluating Bias and Alignment in Multimodal Language Models for Personalized Image Aesthetic Assessment
- Title(参考訳): AesBiasBench:パーソナライズされた画像美的評価のためのマルチモーダル言語モデルにおけるバイアスとアライメントの評価
- Authors: Kun Li, Lai-Man Po, Hongzheng Yang, Xuyuan Xu, Kangcheng Liu, Yuzhi Zhao,
- Abstract要約: AesBiasBenchは、MLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。
結果は、より小さなモデルはより強いステレオタイプバイアスを示し、大きなモデルはより人間の好みとより密接に一致していることを示している。
これらの知見は、主観的視覚言語課題におけるアイデンティティ・アウェア・アセスメント・フレームワークの重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 29.2617518199559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are increasingly applied in Personalized Image Aesthetic Assessment (PIAA) as a scalable alternative to expert evaluations. However, their predictions may reflect subtle biases influenced by demographic factors such as gender, age, and education. In this work, we propose AesBiasBench, a benchmark designed to evaluate MLLMs along two complementary dimensions: (1) stereotype bias, quantified by measuring variations in aesthetic evaluations across demographic groups; and (2) alignment between model outputs and genuine human aesthetic preferences. Our benchmark covers three subtasks (Aesthetic Perception, Assessment, Empathy) and introduces structured metrics (IFD, NRD, AAS) to assess both bias and alignment. We evaluate 19 MLLMs, including proprietary models (e.g., GPT-4o, Claude-3.5-Sonnet) and open-source models (e.g., InternVL-2.5, Qwen2.5-VL). Results indicate that smaller models exhibit stronger stereotype biases, whereas larger models align more closely with human preferences. Incorporating identity information often exacerbates bias, particularly in emotional judgments. These findings underscore the importance of identity-aware evaluation frameworks in subjective vision-language tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、Personalized Image Aesthetic Assessment(PIAA)において、専門家による評価に代わるスケーラブルな代替手段として、ますます応用されている。
しかし、その予測は性別、年齢、教育などの人口統計要因に影響される微妙な偏見を反映する可能性がある。
本研究では,AesBiasBenchを提案する。AesBiasBench,AesBiasBench,AesBiasBench,AesBiasBench,AesBiasBench,AesBiasBench,AesBiasBench,AesBiasBe nch,AesBiasBench,AesBiasBench,AesBiasBench。
我々のベンチマークでは3つのサブタスク(美的知覚、評価、共感)をカバーし、バイアスとアライメントの両方を評価するための構造化メトリクス(IFD、NRD、AAS)を導入している。
我々は,プロプライエタリモデル(GPT-4o,Claude-3.5-Sonnet)やオープンソースモデル(例えば,InternVL-2.5,Qwen2.5-VL)を含む19のMLLMを評価した。
結果は、より小さなモデルはより強いステレオタイプバイアスを示し、大きなモデルはより人間の好みとより密接に一致していることを示している。
アイデンティティ情報を組み込むことは、特に感情的な判断においてバイアスを悪化させる。
これらの知見は、主観的視覚言語課題におけるアイデンティティ・アウェア・アセスメント・フレームワークの重要性を浮き彫りにした。
関連論文リスト
- No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language Models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。
我々は,中小LLMの集合を用いてベンチマークを統一的に評価する。
バイアス検出タスクをバイアスの異なる側面で行うための5つのプロンプト手法を提案する。
その結果, 選択したLLMは, Phi-3.5Bモデルが最も偏りが少ないため, いずれか一方あるいは他方の偏りに悩まされることが示唆された。
論文 参考訳(メタデータ) (2025-03-15T03:58:14Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models [10.73340009530019]
本研究は,Large Language Models (LLMs) における2つのバイアス,代表バイアスと親和性バイアスに対処する。
我々は,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を導入する。
我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。
親和性バイアスによる各モデルにおける特徴的評価パターンの解明
論文 参考訳(メタデータ) (2024-05-23T13:35:34Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。