論文の概要: Uncovering Cultural Representation Disparities in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.14729v1
- Date: Tue, 20 May 2025 02:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.658969
- Title: Uncovering Cultural Representation Disparities in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける文化的表現格差の解明
- Authors: Ram Mohan Rao Kadiyala, Siddhant Gupta, Jebish Purbey, Srishti Yadav, Alejandro Salamanca, Desmond Elliott,
- Abstract要約: VLM(Vision-Language Models)は、様々なタスクにまたがる印象的な機能を示しているが、その潜在的なバイアスには懸念がある。
本研究は、画像に基づく国識別タスクにおいて、その成果を国レベルで評価することにより、著名なVLMが文化的偏見を示す程度について検討する。
- 参考スコア(独自算出の注目度): 46.972172822163685
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated impressive capabilities across a range of tasks, yet concerns about their potential biases exist. This work investigates the extent to which prominent VLMs exhibit cultural biases by evaluating their performance on an image-based country identification task at a country level. Utilizing the geographically diverse Country211 dataset, we probe several large vision language models (VLMs) under various prompting strategies: open-ended questions, multiple-choice questions (MCQs) including challenging setups like multilingual and adversarial settings. Our analysis aims to uncover disparities in model accuracy across different countries and question formats, providing insights into how training data distribution and evaluation methodologies might influence cultural biases in VLMs. The findings highlight significant variations in performance, suggesting that while VLMs possess considerable visual understanding, they inherit biases from their pre-training data and scale that impact their ability to generalize uniformly across diverse global contexts.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々なタスクにまたがる印象的な機能を示しているが、その潜在的なバイアスには懸念がある。
本研究は、画像に基づく国識別タスクにおいて、その成果を国レベルで評価することにより、著名なVLMが文化的偏見を示す程度について検討する。
地理的に多様な Country211データセットを利用することで、オープンエンド質問、マルチチョイス質問(MCQ)、マルチリンガル設定や逆設定といった挑戦的な設定を含む、さまざまなプロンプト戦略の下で、いくつかの大きな視覚言語モデル(VLM)を探索する。
我々の分析は、異なる国や質問形式におけるモデル精度の相違を明らかにすることを目的としており、VLMの文化的偏見にどのように影響するかをトレーニングデータ配布と評価手法が理解することを目的としている。
この結果は、VLMが視覚的な理解をかなり持っているにもかかわらず、学習前のデータからバイアスを継承し、様々なグローバルな文脈で一様に一般化する能力に影響を与えることを示唆している。
関連論文リスト
- Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration [31.684544472009918]
本稿では,文化的なVLMベンチマークを構築するための半自動フレームワークを提案する。
このフレームワークは人間とVLMのコラボレーションを組み合わせ、VLMはガイドライン、注釈付きサンプルの小さなセット、関連する知識に基づいて質問を生成し、続いてネイティブスピーカーによる検証プロセスを実行する。
韓国文化に焦点を当てたデータセットであるK-Viscuitの作成を通じて,この枠組みの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-24T09:18:15Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models [38.932610459192105]
コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究
我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-05-22T16:04:22Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。