論文の概要: No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.13777v2
- Date: Fri, 24 May 2024 14:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:58:13.994940
- Title: No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models
- Title(参考訳): フィルターなし:コントラスト視覚・言語モデルにおける文化的・社会経済的多様性
- Authors: Angéline Pouget, Lucas Beyer, Emanuele Bugliarello, Xiao Wang, Andreas Peter Steiner, Xiaohua Zhai, Ibrahim Alabdulmohsin,
- Abstract要約: コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究
我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 38.932610459192105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study cultural and socioeconomic diversity in contrastive vision-language models (VLMs). Using a broad range of benchmark datasets and evaluation metrics, we bring to attention several important findings. First, the common filtering of training data to English image-text pairs disadvantages communities of lower socioeconomic status and negatively impacts cultural understanding. Notably, this performance gap is not captured by - and even at odds with - the currently popular evaluation metrics derived from the Western-centric ImageNet and COCO datasets. Second, pretraining with global, unfiltered data before fine-tuning on English content can improve cultural understanding without sacrificing performance on said popular benchmarks. Third, we introduce the task of geo-localization as a novel evaluation metric to assess cultural diversity in VLMs. Our work underscores the value of using diverse data to create more inclusive multimodal systems and lays the groundwork for developing VLMs that better represent global perspectives.
- Abstract(参考訳): コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性について検討した。
幅広いベンチマークデータセットと評価指標を用いて、いくつかの重要な発見に注目する。
まず、英語のイメージテキスト対に対するトレーニングデータの一般的なフィルタリングは、社会経済的地位の低いコミュニティを不利にし、文化的理解に悪影響を及ぼす。
特に、このパフォーマンスギャップは、現在一般的な評価指標である、Western中心のImageNetとCOCOデータセットによって捉えられていない。
第二に、英語のコンテンツを微調整する前に、グローバルでフィルタされていないデータで事前トレーニングすることは、その人気ベンチマークのパフォーマンスを犠牲にすることなく、文化的理解を改善することができる。
第3に,VLMの文化的多様性を評価するための新しい評価指標として,地理的ローカライゼーションの課題を紹介する。
我々の研究は、多様なデータを用いてより包括的なマルチモーダルシステムを構築することの価値を強調し、グローバルな視点をよりよく表現するVLMを開発するための基盤となる。
関連論文リスト
- Self-Alignment: Improving Alignment of Cultural Values in LLMs via In-Context Learning [13.034603322224548]
In-context Learning(ICL)とヒューマンサーベイデータを組み合わせた簡易で安価な手法を提案する。
本手法は、英語以外のテスト言語で有用であることが証明され、文化的に多種多様な国に対応する文化的価値との整合性を向上させることができる。
論文 参考訳(メタデータ) (2024-08-29T12:18:04Z) - Evaluating Cultural Adaptability of a Large Language Model via Simulation of Synthetic Personas [4.0937229334408185]
我々は、GPT-3.5を用いて、15カ国7,286人の参加者の説得的ニュース記事に対する反応を再現する。
対象者の居住国を特定することで,GPT-3.5の対応性の向上が期待できる。
対照的に、ネイティブ言語プロンプトを使用すると、全体的なアライメントを大幅に削減するシフトが発生する。
論文 参考訳(メタデータ) (2024-08-13T14:32:43Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration [31.684544472009918]
本稿では,文化的なVLMベンチマークを構築するための,半きめ細かいパイプラインを提案する。
VLMモデルは、ガイドライン、人間による注釈付き例、画像関連知識に基づいて質問を生成する。
このパイプラインは、K-Viscuitと呼ばれる韓国の文化に合わせてデータセットを作成するという、特定のアプリケーションを通じて実証されている。
論文 参考訳(メタデータ) (2024-06-24T09:18:15Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - D3CODE: Disentangling Disagreements in Data across Cultures on Offensiveness Detection and Evaluation [5.9053106775634685]
4k以上のアノテーションをアノテータのプールにアノテートした4.5K以上の文で、攻撃的言語のための並列アノテーションの大規模なクロスカルチャーデータセットを紹介した。
このデータセットには、ケア、平等、比例、権威、忠誠、純粋性の6つの道徳的基礎に沿って収集されたアノテーターの道徳的価値が含まれている。
分析の結果,アノテータの知覚は個々の道徳的価値観によって形成されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-16T19:12:03Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。