論文の概要: Cultural Awareness in Vision-Language Models: A Cross-Country Exploration
- arxiv url: http://arxiv.org/abs/2505.20326v1
- Date: Fri, 23 May 2025 18:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.174367
- Title: Cultural Awareness in Vision-Language Models: A Cross-Country Exploration
- Title(参考訳): 視覚・言語モデルにおける文化的意識:クロスカウンタリー探索
- Authors: Avinash Madasu, Vasudev Lal, Phillip Howard,
- Abstract要約: VLM(Vision-Language Models)は、さまざまな文化的文脈において、ますます普及している。
本稿では、VLMが人種、性別、身体的特性に関連する文化的差異やバイアスをどのように符号化しているかを評価するための新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 5.921976812527759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed in diverse cultural contexts, yet their internal biases remain poorly understood. In this work, we propose a novel framework to systematically evaluate how VLMs encode cultural differences and biases related to race, gender, and physical traits across countries. We introduce three retrieval-based tasks: (1) Race to Country retrieval, which examines the association between individuals from specific racial groups (East Asian, White, Middle Eastern, Latino, South Asian, and Black) and different countries; (2) Personal Traits to Country retrieval, where images are paired with trait-based prompts (e.g., Smart, Honest, Criminal, Violent) to investigate potential stereotypical associations; and (3) Physical Characteristics to Country retrieval, focusing on visual attributes like skinny, young, obese, and old to explore how physical appearances are culturally linked to nations. Our findings reveal persistent biases in VLMs, highlighting how visual representations may inadvertently reinforce societal stereotypes.
- Abstract(参考訳): VLM(Vision-Language Models)は、さまざまな文化的な文脈に展開されているが、その内部バイアスはあまり理解されていない。
本研究では,VLMが人種,性別,身体的特性に関連する文化的差異と偏見をどのように符号化するかを体系的に評価する枠組みを提案する。
本研究では,(1)特定の人種集団(東アジア,白,中東,ラテン,南アジア,黒)と異なる国々の個人間の関係を調査する「地域への競争」,(2)イメージを特徴に基づくプロンプト(例えば,スマート,正直,犯罪,暴力)と組み合わせてステレオタイプ的関連を調査する「国への個人トラスト」,(3)スキン,若年,肥満,老齢などの視覚特性に着目した「国への身体特性」の3つを紹介する。
以上の結果から,視覚的表現が社会的ステレオタイプを必然的に強化する可能性が示唆された。
関連論文リスト
- Contrasting Cognitive Styles in Vision-Language Models: Holistic Attention in Japanese Versus Analytical Focus in English [4.8310710966636545]
視覚言語モデル(VLM)が日本語と英語の異なる言語で主に訓練されているかを検討する。
以上の結果から,VLMは言語の構造的特性だけでなく,学習データに埋め込まれた文化行動も再現し,文化認知が暗黙的にモデル出力を形作る可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-01T11:56:45Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。
我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。
言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文 参考訳(メタデータ) (2025-01-02T04:57:50Z) - How Well Do LLMs Identify Cultural Unity in Diversity? [12.982460687543952]
本稿では,概念の文化的統一性を理解するために,デコーダのみの大規模言語モデル(LLM)を評価するためのベンチマークデータセットを提案する。
CUNITは、10か国で285の伝統的な文化的概念に基づいて構築された1,425の評価例で構成されている。
高い関連性を持つ異文化のコンセプトペアを識別するLLMの能力を評価するために,コントラストマッチングタスクを設計する。
論文 参考訳(メタデータ) (2024-08-09T14:45:22Z) - Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。
我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。
質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文 参考訳(メタデータ) (2024-07-15T17:21:41Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Investigating Cultural Alignment of Large Language Models [10.738300803676655]
LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
論文 参考訳(メタデータ) (2024-02-20T18:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。