論文の概要: Cultural and Linguistic Diversity Improves Visual Representations
- arxiv url: http://arxiv.org/abs/2310.14356v2
- Date: Fri, 24 Nov 2023 05:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 02:47:51.720844
- Title: Cultural and Linguistic Diversity Improves Visual Representations
- Title(参考訳): 文化的・言語的多様性が視覚表現を改善する
- Authors: Andre Ye, Sebastin Santy, Jena D. Hwang, Amy X. Zhang, Ranjay Krishna
- Abstract要約: 異文化心理学と言語学は、個人が彼らの文化的背景と彼らが話す言語によって視覚的知覚が異なることを示した。
我々の研究は、多様な知覚様式が画像理解をいかに改善するかを示唆している。
- 参考スコア(独自算出の注目度): 28.716435050743957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision often treats perception as objective, and this assumption
gets reflected in the way that datasets are collected and models are trained.
For instance, image descriptions in different languages are typically assumed
to be translations of the same semantic content. However, work in
cross-cultural psychology and linguistics has shown that individuals differ in
their visual perception depending on their cultural background and the language
they speak. In this paper, we demonstrate significant differences in semantic
content across languages in both dataset and model-produced captions. When data
is multilingual as opposed to monolingual, captions have higher semantic
coverage on average, as measured by scene graph, embedding, and linguistic
complexity. For example, multilingual captions have on average 21.8% more
objects, 24.5% more relations, and 27.1% more attributes than a set of
monolingual captions. Moreover, models trained on content from different
languages perform best against test data from those languages, while those
trained on multilingual content perform consistently well across all evaluation
data compositions. Our research provides implications for how diverse modes of
perception can improve image understanding.
- Abstract(参考訳): コンピュータビジョンは知覚を客観的に扱うことが多く、この仮定はデータセットの収集やモデルを訓練する方法に反映される。
例えば、異なる言語における画像記述は、典型的には同じ意味的内容の翻訳であると仮定される。
しかし、異文化心理学や言語学の研究は、個人が文化的背景や話す言語によって視覚的に異なることを示している。
本稿では,データセットとモデル生成キャプションの両方において,言語間の意味コンテンツの有意な差異を示す。
モノリンガルとは対照的に、データが多言語である場合、シーングラフ、埋め込み、言語複雑性によって測定される平均的な意味的カバレッジは高い。
例えば、多言語キャプションは、平均21.8%以上のオブジェクト、24.5%以上のリレーション、27.1%以上の属性を持つ。
さらに、異なる言語のコンテンツで訓練されたモデルは、それらの言語のテストデータに対して最善を尽くす一方、多言語コンテンツで訓練されたモデルは、すべての評価データ合成に対して一貫して良好に機能する。
我々の研究は、多様な知覚モードが画像理解をいかに改善できるかを示す。
関連論文リスト
- Cross-Lingual and Cross-Cultural Variation in Image Descriptions [2.8664758928324883]
画像記述における言語間差異に関する大規模な実証的研究を行った。
私たちは、31の言語とさまざまな場所の画像を持つマルチモーダルデータセットを使用します。
我々の分析によると、地理的にあるいは遺伝的に近い言語のペアは、同じ実体に頻繁に言及する傾向がある。
論文 参考訳(メタデータ) (2024-09-25T05:57:09Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Deception detection in text and its relation to the cultural dimension
of individualism/collectivism [6.17866386107486]
本研究は,文化における特定の言語的特徴の活用の相違が,個性主義/選択主義の分断に関して,規範に起因しているかどうかを考察する。
我々は、音韻学、形態学、構文に基づく幅広いn-gram特徴を実験することにより、カルチャー/言語対応分類器を作成する。
我々は6カ国(米国、ベルギー、インド、ロシア、メキシコ、ルーマニア)の5言語(英語、オランダ、ロシア、スペイン、ルーマニア)から11のデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-05-26T13:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。