論文の概要: No Filter: Cultural and Socioeconomic Diversityin Contrastive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.13777v1
- Date: Wed, 22 May 2024 16:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-24 23:25:17.850799
- Title: No Filter: Cultural and Socioeconomic Diversityin Contrastive Vision-Language Models
- Title(参考訳): フィルターなし:コントラスト視覚・言語モデルにおける文化的・社会経済的多様性
- Authors: Angéline Pouget, Lucas Beyer, Emanuele Bugliarello, Xiao Wang, Andreas Peter Steiner, Xiaohua Zhai, Ibrahim Alabdulmohsin,
- Abstract要約: コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究
我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 38.932610459192105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study cultural and socioeconomic diversity in contrastive vision-language models (VLMs). Using a broad range of benchmark datasets and evaluation metrics, we bring to attention several important findings. First, the common filtering of training data to English image-text pairs disadvantages communities of lower socioeconomic status and negatively impacts cultural understanding. Notably, this performance gap is not captured by -- and even at odds with -- the currently popular evaluation metrics derived from the Western-centric ImageNet and COCO datasets. Second, pretraining with global, unfiltered data before fine-tuning on English content can improve cultural understanding without sacrificing performance on said popular benchmarks. Third, we introduce the task of geo-localization as a novel evaluation metric to assess cultural diversity in VLMs. Our work underscores the value of using diverse data to create more inclusive multimodal systems and lays the groundwork for developing VLMs that better represent global perspectives.
- Abstract(参考訳): コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性について検討した。
幅広いベンチマークデータセットと評価指標を用いて、いくつかの重要な発見に注目する。
まず、英語のイメージテキスト対に対するトレーニングデータの一般的なフィルタリングは、社会経済的地位の低いコミュニティを不利にし、文化的理解に悪影響を及ぼす。
特に、このパフォーマンスギャップは、現在、西洋中心のImageNetとCOCOデータセットから派生した評価指標である -- そして、それとは相反する -- によって捉えられません。
第二に、英語のコンテンツを微調整する前に、グローバルでフィルタされていないデータで事前トレーニングすることは、その人気ベンチマークのパフォーマンスを犠牲にすることなく、文化的理解を改善することができる。
第3に,VLMの文化的多様性を評価するための新しい評価指標として,地理的ローカライゼーションの課題を紹介する。
我々の研究は、多様なデータを用いてより包括的なマルチモーダルシステムを構築することの価値を強調し、グローバルな視点をよりよく表現するVLMを開発するための基盤となる。
関連論文リスト
- CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Beyond Words: Exploring Cultural Value Sensitivity in Multimodal Models [26.051898880298126]
文化的文脈に基づく大規模言語モデルにおける価値アライメントの調査は、重要な研究領域となっている。
同様のバイアスは、大きな視覚言語モデル(VLM)では広く研究されていない。
論文 参考訳(メタデータ) (2025-02-18T19:03:02Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。
我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。
言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文 参考訳(メタデータ) (2025-01-02T04:57:50Z) - ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning [1.1343849658875087]
本研究では,テキスト生成中に文化的・人口的知識を動的に統合するためのValuesRAGを提案する。
ValuesRAGは、メイン実験とアブレーション研究の両方において、ベースライン法よりも一貫して優れている。
特に、ValuesRAGは、他のベースライン手法よりも21%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-02T03:26:13Z) - Self-Alignment: Improving Alignment of Cultural Values in LLMs via In-Context Learning [13.034603322224548]
In-context Learning(ICL)とヒューマンサーベイデータを組み合わせた簡易で安価な手法を提案する。
本手法は、英語以外のテスト言語で有用であることが証明され、文化的に多種多様な国に対応する文化的価値との整合性を向上させることができる。
論文 参考訳(メタデータ) (2024-08-29T12:18:04Z) - Evaluating Cultural Adaptability of a Large Language Model via Simulation of Synthetic Personas [4.0937229334408185]
我々は、GPT-3.5を用いて、15カ国7,286人の参加者の説得的ニュース記事に対する反応を再現する。
対象者の居住国を特定することで,GPT-3.5の対応性の向上が期待できる。
対照的に、ネイティブ言語プロンプトを使用すると、全体的なアライメントを大幅に削減するシフトが発生する。
論文 参考訳(メタデータ) (2024-08-13T14:32:43Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration [31.684544472009918]
本稿では,文化的なVLMベンチマークを構築するための,半きめ細かいパイプラインを提案する。
VLMモデルは、ガイドライン、人間による注釈付き例、画像関連知識に基づいて質問を生成する。
このパイプラインは、K-Viscuitと呼ばれる韓国の文化に合わせてデータセットを作成するという、特定のアプリケーションを通じて実証されている。
論文 参考訳(メタデータ) (2024-06-24T09:18:15Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - D3CODE: Disentangling Disagreements in Data across Cultures on Offensiveness Detection and Evaluation [5.9053106775634685]
4k以上のアノテーションをアノテータのプールにアノテートした4.5K以上の文で、攻撃的言語のための並列アノテーションの大規模なクロスカルチャーデータセットを紹介した。
このデータセットには、ケア、平等、比例、権威、忠誠、純粋性の6つの道徳的基礎に沿って収集されたアノテーターの道徳的価値が含まれている。
分析の結果,アノテータの知覚は個々の道徳的価値観によって形成されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-16T19:12:03Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。