論文の概要: Cultural Awareness in Vision-Language Models: A Cross-Country Exploration
- arxiv url: http://arxiv.org/abs/2505.20326v1
- Date: Fri, 23 May 2025 18:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.174367
- Title: Cultural Awareness in Vision-Language Models: A Cross-Country Exploration
- Title(参考訳): 視覚・言語モデルにおける文化的意識:クロスカウンタリー探索
- Authors: Avinash Madasu, Vasudev Lal, Phillip Howard,
- Abstract要約: VLM(Vision-Language Models)は、さまざまな文化的文脈において、ますます普及している。
本稿では、VLMが人種、性別、身体的特性に関連する文化的差異やバイアスをどのように符号化しているかを評価するための新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 5.921976812527759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed in diverse cultural contexts, yet their internal biases remain poorly understood. In this work, we propose a novel framework to systematically evaluate how VLMs encode cultural differences and biases related to race, gender, and physical traits across countries. We introduce three retrieval-based tasks: (1) Race to Country retrieval, which examines the association between individuals from specific racial groups (East Asian, White, Middle Eastern, Latino, South Asian, and Black) and different countries; (2) Personal Traits to Country retrieval, where images are paired with trait-based prompts (e.g., Smart, Honest, Criminal, Violent) to investigate potential stereotypical associations; and (3) Physical Characteristics to Country retrieval, focusing on visual attributes like skinny, young, obese, and old to explore how physical appearances are culturally linked to nations. Our findings reveal persistent biases in VLMs, highlighting how visual representations may inadvertently reinforce societal stereotypes.
- Abstract(参考訳): VLM(Vision-Language Models)は、さまざまな文化的な文脈に展開されているが、その内部バイアスはあまり理解されていない。
本研究では,VLMが人種,性別,身体的特性に関連する文化的差異と偏見をどのように符号化するかを体系的に評価する枠組みを提案する。
本研究では,(1)特定の人種集団(東アジア,白,中東,ラテン,南アジア,黒)と異なる国々の個人間の関係を調査する「地域への競争」,(2)イメージを特徴に基づくプロンプト(例えば,スマート,正直,犯罪,暴力)と組み合わせてステレオタイプ的関連を調査する「国への個人トラスト」,(3)スキン,若年,肥満,老齢などの視覚特性に着目した「国への身体特性」の3つを紹介する。
以上の結果から,視覚的表現が社会的ステレオタイプを必然的に強化する可能性が示唆された。
関連論文リスト
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。
我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。
質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文 参考訳(メタデータ) (2024-07-15T17:21:41Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Investigating Cultural Alignment of Large Language Models [10.738300803676655]
LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
論文 参考訳(メタデータ) (2024-02-20T18:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。