論文の概要: Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception
- arxiv url: http://arxiv.org/abs/2310.14356v3
- Date: Sat, 9 Mar 2024 20:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:38:09.869896
- Title: Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception
- Title(参考訳): コンピュータビジョンデータセットとモデルによる知覚の文化的・言語的多様性
- Authors: Andre Ye, Sebastin Santy, Jena D. Hwang, Amy X. Zhang, Ranjay Krishna
- Abstract要約: 異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
- 参考スコア(独自算出の注目度): 28.716435050743957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision often treats human perception as homogeneous: an implicit
assumption that visual stimuli are perceived similarly by everyone. This
assumption is reflected in the way researchers collect datasets and train
vision models. By contrast, literature in cross-cultural psychology and
linguistics has provided evidence that people from different cultural
backgrounds observe vastly different concepts even when viewing the same visual
stimuli. In this paper, we study how these differences manifest themselves in
vision-language datasets and models, using language as a proxy for culture. By
comparing textual descriptions generated across 7 languages for the same
images, we find significant differences in the semantic content and linguistic
expression. When datasets are multilingual as opposed to monolingual,
descriptions have higher semantic coverage on average, where coverage is
measured using scene graphs, model embeddings, and linguistic taxonomies. For
example, multilingual descriptions have on average 29.9% more objects, 24.5%
more relations, and 46.0% more attributes than a set of monolingual captions.
When prompted to describe images in different languages, popular models (e.g.
LLaVA) inherit this bias and describe different parts of the image. Moreover,
finetuning models on captions from one language performs best on corresponding
test data from that language, while finetuning on multilingual data performs
consistently well across all test data compositions. Our work points towards
the need to account for and embrace the diversity of human perception in the
computer vision community.
- Abstract(参考訳): コンピュータビジョンは、しばしば人間の知覚を均質なものとして扱う:視覚刺激は誰からも同じように知覚されるという暗黙の仮定。
この仮定は、研究者がデータセットを収集し、ビジョンモデルを訓練する方法に反映されている。
対照的に、異文化心理学や言語学の文献は、異なる文化背景の人々が同じ視覚刺激を見る場合でも、全く異なる概念を観察する証拠となっている。
本稿では,これらの違いが視覚言語データセットやモデルにどのように現れるのかを,文化の代理として言語を用いて検討する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
データセットが単言語とは対照的に多言語である場合、記述は、シーングラフ、モデル埋め込み、言語分類を用いてカバレッジを測定する平均的な意味的カバレッジを持つ。
例えば、多言語記述は平均29.9%以上の対象、24.5%以上の関係、46.0%以上の属性を持つ。
異なる言語で画像を記述しようとすると、人気のあるモデル(例えばllava)がこのバイアスを継承し、画像の異なる部分を記述する。
さらに、ある言語からのキャプションの微調整モデルは、その言語からの対応するテストデータに対して最良であり、多言語データの微調整は、すべてのテストデータ構成において一貫して良好である。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に向けられている。
関連論文リスト
- Cross-Lingual and Cross-Cultural Variation in Image Descriptions [2.8664758928324883]
画像記述における言語間差異に関する大規模な実証的研究を行った。
私たちは、31の言語とさまざまな場所の画像を持つマルチモーダルデータセットを使用します。
我々の分析によると、地理的にあるいは遺伝的に近い言語のペアは、同じ実体に頻繁に言及する傾向がある。
論文 参考訳(メタデータ) (2024-09-25T05:57:09Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Deception detection in text and its relation to the cultural dimension
of individualism/collectivism [6.17866386107486]
本研究は,文化における特定の言語的特徴の活用の相違が,個性主義/選択主義の分断に関して,規範に起因しているかどうかを考察する。
我々は、音韻学、形態学、構文に基づく幅広いn-gram特徴を実験することにより、カルチャー/言語対応分類器を作成する。
我々は6カ国(米国、ベルギー、インド、ロシア、メキシコ、ルーマニア)の5言語(英語、オランダ、ロシア、スペイン、ルーマニア)から11のデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-05-26T13:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。