論文の概要: From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.00263v1
- Date: Fri, 28 Jun 2024 23:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 05:41:03.377445
- Title: From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models
- Title(参考訳): 地域概念からユニバーサルへ:視覚・言語モデルの多文化的理解を評価する
- Authors: Mehar Bhatia, Sahithya Ravi, Aditya Chinchure, Eunjeong Hwang, Vered Shwartz,
- Abstract要約: 視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
- 参考スコア(独自算出の注目度): 10.121734731147376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements in vision-language models, their performance remains suboptimal on images from non-western cultures due to underrepresentation in training datasets. Various benchmarks have been proposed to test models' cultural inclusivity, but they have limited coverage of cultures and do not adequately assess cultural diversity across universal as well as culture-specific local concepts. To address these limitations, we introduce the GlobalRG benchmark, comprising two challenging tasks: retrieval across universals and cultural visual grounding. The former task entails retrieving culturally diverse images for universal concepts from 50 countries, while the latter aims at grounding culture-specific concepts within images from 15 countries. Our evaluation across a wide range of models reveals that the performance varies significantly across cultures -- underscoring the necessity for enhancing multicultural understanding in vision-language models.
- Abstract(参考訳): 近年の視覚言語モデルの発展にもかかわらず、その性能はトレーニングデータセットの過小評価のため、西欧文化以外の文化のイメージに比例しないままである。
モデルの文化的傾きをテストするための様々なベンチマークが提案されているが、それらには文化のカバー範囲が限られており、文化固有の地域概念だけでなく、普遍的な文化の多様性を適切に評価することができない。
これらの制限に対処するため、GlobalRGベンチマークを導入する。
前者の課題は、50か国からの普遍概念の文化的に多様なイメージを検索することであり、後者は15か国からのイメージに文化固有の概念を基礎付けることを目的としている。
幅広いモデルに対する我々の評価は、その性能が文化によって大きく異なることを示し、視覚言語モデルにおける多文化的な理解を強化する必要性を強調している。
関連論文リスト
- CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - Navigating the Cultural Kaleidoscope: A Hitchhiker's Guide to Sensitivity in Large Language Models [4.771099208181585]
LLMはますますグローバルなアプリケーションにデプロイされ、さまざまなバックグラウンドを持つユーザが尊敬され、理解されることが保証される。
文化的な害は、これらのモデルが特定の文化的規範と一致しないときに起こり、文化的な価値観の誤った表現や違反をもたらす。
潜在的な文化的不感を露呈するシナリオを通じて、異なる文化的文脈におけるモデルアウトプットを評価するために作成された文化的調和テストデータセットと、多様なアノテータからのフィードバックに基づいた微調整による文化的感受性の回復を目的とした、文化的に整合した選好データセットである。
論文 参考訳(メタデータ) (2024-10-15T18:13:10Z) - How Well Do LLMs Identify Cultural Unity in Diversity? [12.982460687543952]
本稿では,概念の文化的統一性を理解するために,デコーダのみの大規模言語モデル(LLM)を評価するためのベンチマークデータセットを提案する。
CUNITは、10か国で285の伝統的な文化的概念に基づいて構築された1,425の評価例で構成されている。
高い関連性を持つ異文化のコンセプトペアを識別するLLMの能力を評価するために,コントラストマッチングタスクを設計する。
論文 参考訳(メタデータ) (2024-08-09T14:45:22Z) - Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。
我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。
質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文 参考訳(メタデータ) (2024-07-15T17:21:41Z) - Beyond Aesthetics: Cultural Competence in Text-to-Image Models [34.98692829036475]
CUBEは、テキスト・ツー・イメージ・モデルの文化的能力を評価するための最初のベンチマークである。
CUBEは、異なる地理的文化圏の8か国に関連する文化的アーティファクトをカバーしている。
CUBE-CSpaceは、文化的多様性を評価する基盤となる文化的アーティファクトのより大きなデータセットである。
論文 参考訳(メタデータ) (2024-07-09T13:50:43Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。