論文の概要: No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.13777v2
- Date: Fri, 24 May 2024 14:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:58:13.994940
- Title: No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models
- Title(参考訳): フィルターなし:コントラスト視覚・言語モデルにおける文化的・社会経済的多様性
- Authors: Angéline Pouget, Lucas Beyer, Emanuele Bugliarello, Xiao Wang, Andreas Peter Steiner, Xiaohua Zhai, Ibrahim Alabdulmohsin,
- Abstract要約: コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究
我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 38.932610459192105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study cultural and socioeconomic diversity in contrastive vision-language models (VLMs). Using a broad range of benchmark datasets and evaluation metrics, we bring to attention several important findings. First, the common filtering of training data to English image-text pairs disadvantages communities of lower socioeconomic status and negatively impacts cultural understanding. Notably, this performance gap is not captured by - and even at odds with - the currently popular evaluation metrics derived from the Western-centric ImageNet and COCO datasets. Second, pretraining with global, unfiltered data before fine-tuning on English content can improve cultural understanding without sacrificing performance on said popular benchmarks. Third, we introduce the task of geo-localization as a novel evaluation metric to assess cultural diversity in VLMs. Our work underscores the value of using diverse data to create more inclusive multimodal systems and lays the groundwork for developing VLMs that better represent global perspectives.
- Abstract(参考訳): コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性について検討した。
幅広いベンチマークデータセットと評価指標を用いて、いくつかの重要な発見に注目する。
まず、英語のイメージテキスト対に対するトレーニングデータの一般的なフィルタリングは、社会経済的地位の低いコミュニティを不利にし、文化的理解に悪影響を及ぼす。
特に、このパフォーマンスギャップは、現在一般的な評価指標である、Western中心のImageNetとCOCOデータセットによって捉えられていない。
第二に、英語のコンテンツを微調整する前に、グローバルでフィルタされていないデータで事前トレーニングすることは、その人気ベンチマークのパフォーマンスを犠牲にすることなく、文化的理解を改善することができる。
第3に,VLMの文化的多様性を評価するための新しい評価指標として,地理的ローカライゼーションの課題を紹介する。
我々の研究は、多様なデータを用いてより包括的なマルチモーダルシステムを構築することの価値を強調し、グローバルな視点をよりよく表現するVLMを開発するための基盤となる。
関連論文リスト
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。
我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。
言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文 参考訳(メタデータ) (2025-01-02T04:57:50Z) - ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning [1.1343849658875087]
本研究では,テキスト生成中に文化的・人口的知識を動的に統合するためのValuesRAGを提案する。
ValuesRAGは、メイン実験とアブレーション研究の両方において、ベースライン法よりも一貫して優れている。
特に、ValuesRAGは、他のベースライン手法よりも21%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-02T03:26:13Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - Self-Alignment: Improving Alignment of Cultural Values in LLMs via In-Context Learning [13.034603322224548]
In-context Learning(ICL)とヒューマンサーベイデータを組み合わせた簡易で安価な手法を提案する。
本手法は、英語以外のテスト言語で有用であることが証明され、文化的に多種多様な国に対応する文化的価値との整合性を向上させることができる。
論文 参考訳(メタデータ) (2024-08-29T12:18:04Z) - Evaluating Cultural Adaptability of a Large Language Model via Simulation of Synthetic Personas [4.0937229334408185]
我々は、GPT-3.5を用いて、15カ国7,286人の参加者の説得的ニュース記事に対する反応を再現する。
対象者の居住国を特定することで,GPT-3.5の対応性の向上が期待できる。
対照的に、ネイティブ言語プロンプトを使用すると、全体的なアライメントを大幅に削減するシフトが発生する。
論文 参考訳(メタデータ) (2024-08-13T14:32:43Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。