論文の概要: See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding
- arxiv url: http://arxiv.org/abs/2406.11665v1
- Date: Mon, 17 Jun 2024 15:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:03:05.476414
- Title: See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding
- Title(参考訳): 私の視点から見る:画像理解における大規模視覚言語モデルの西洋文化バイアスの診断
- Authors: Amith Ananthram, Elias Stengel-Eskin, Carl Vondrick, Mohit Bansal, Kathleen McKeown,
- Abstract要約: 視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
- 参考スコア(独自算出の注目度): 78.88461026069862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) can respond to queries about images in many languages. However, beyond language, culture affects how we see things. For example, individuals from Western cultures focus more on the central figure in an image while individuals from Eastern cultures attend more to scene context. In this work, we present a novel investigation that demonstrates and localizes VLMs' Western bias in image understanding. We evaluate large VLMs across subjective and objective visual tasks with culturally diverse images and annotations. We find that VLMs perform better on the Western subset than the Eastern subset of each task. Controlled experimentation tracing the source of this bias highlights the importance of a diverse language mix in text-only pre-training for building equitable VLMs, even when inference is performed in English. Moreover, while prompting in the language of a target culture can lead to reductions in bias, it is not a substitute for building AI more representative of the world's languages.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
しかし、言語以外では、文化は物事を見る方法に影響を与えます。
例えば、西洋文化の個人はイメージの中心的な人物に注目する一方で、東部文化の個人はシーンの文脈により参加する。
本研究では,画像理解におけるVLMの西洋偏見を実証し,局所化する新しい研究を提案する。
我々は、文化的に多様な画像やアノテーションを用いて、主観的、客観的な視覚的タスクにわたる大規模なVLMを評価する。
VLMは各タスクの東部部分集合よりも西部部分集合の方が優れていることが分かる。
このバイアスの源を辿る制御された実験は、英語で推論を行う場合でも、公平なVLMを構築するためのテキストのみの事前学習において、多種多様な言語混合の重要性を強調している。
さらに、対象とする文化の言語をプロンプトすることはバイアスの低減につながる可能性があるが、世界の言語をもっと代表するAIを構築する代替手段ではない。
関連論文リスト
- Analyzing Cultural Representations of Emotions in LLMs through Mixed Emotion Survey [2.9213203896291766]
本研究では,大規模言語モデル(LLM)における感情の文化的表現の分析に焦点をあてる。
本手法は,日本人とアメリカ人の反応に特徴的な感情指標を同定した宮本らの研究に基づいている。
モデルが文献の証拠と限定的に一致していることがわかりました。
論文 参考訳(メタデータ) (2024-08-04T20:56:05Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。
VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (2024-05-27T15:01:23Z) - Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception [28.716435050743957]
異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文 参考訳(メタデータ) (2023-10-22T16:51:42Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times
and Location Reasoning [23.33600235294496]
VLM(Vision-Language Models)は、人間としての常識的な知識を推論できると期待されている。
これにより、視覚的な手がかりに基づいて、Vision-Language Modelsは、時間と位置の推論において、人間の能力を達成し、さらに上回ることができるのだろうか、と疑問に思う。
本稿では,2段階の認識空間と推論空間探索タスクを提案する。
論文 参考訳(メタデータ) (2023-07-12T13:46:28Z) - Having Beer after Prayer? Measuring Cultural Bias in Large Language Models [25.722262209465846]
多言語およびアラビア語のモノリンガルLMは、西洋文化に関連する実体に対して偏見を示すことを示す。
アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。
CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、16の異なるLMのアラビア語における異文化間性能について検討した。
論文 参考訳(メタデータ) (2023-05-23T18:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。