論文の概要: ArtELingo: A Million Emotion Annotations of WikiArt with Emphasis on
Diversity over Language and Culture
- arxiv url: http://arxiv.org/abs/2211.10780v1
- Date: Sat, 19 Nov 2022 19:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:06:50.960763
- Title: ArtELingo: A Million Emotion Annotations of WikiArt with Emphasis on
Diversity over Language and Culture
- Title(参考訳): ArtELingo: 言語と文化に対する多様性を重視したWikiArtの100万の感情アノテーション
- Authors: Youssef Mohamed, Mohamed Abdelfattah, Shyma Alhuwaider, Feifan Li,
Xiangliang Zhang, Kenneth Ward Church, Mohamed Elhoseiny
- Abstract要約: ArtELingoは新しいベンチマークとデータセットで、言語や文化の多様性に関する作業を促進するように設計されている。
ArtEmisに続いて、ArtELingoは、アラビア語と中国語でさらに0.79万のアノテーションを追加し、スペイン語で4.8Kの“文化的な”パフォーマンスを評価する。
この多様性は、言語や文化の類似点や相違点を研究することを可能にする。
- 参考スコア(独自算出の注目度): 33.055579812262785
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces ArtELingo, a new benchmark and dataset, designed to
encourage work on diversity across languages and cultures. Following ArtEmis, a
collection of 80k artworks from WikiArt with 0.45M emotion labels and
English-only captions, ArtELingo adds another 0.79M annotations in Arabic and
Chinese, plus 4.8K in Spanish to evaluate "cultural-transfer" performance. More
than 51K artworks have 5 annotations or more in 3 languages. This diversity
makes it possible to study similarities and differences across languages and
cultures. Further, we investigate captioning tasks, and find diversity improves
the performance of baseline models. ArtELingo is publicly available at
https://www.artelingo.org/ with standard splits and baseline models. We hope
our work will help ease future research on multilinguality and culturally-aware
AI.
- Abstract(参考訳): 本稿では,言語や文化の多様性に取り組むための新しいベンチマークとデータセットであるartelingoを紹介する。
WikiArtの80kアートのコレクションであるArtEmisに続いて、ArtELingoは、アラビア語と中国語でさらに0.79Mアノテーションと、スペイン語で4.8Kの「文化的伝達」のパフォーマンスを評価する。
51k以上の美術品は3言語で5以上の注釈を持っている。
この多様性により、言語や文化間の類似性と相違を研究することができる。
さらに,キャプションタスクを調査し,ベースラインモデルの性能を多様性が向上することを示す。
ArtELingoはhttps://www.artelingo.org/で公開されている。
われわれの研究が、多言語と文化的に認識されたAIに関する将来の研究を容易にしてくれることを期待している。
関連論文リスト
- Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception [28.716435050743957]
異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文 参考訳(メタデータ) (2023-10-22T16:51:42Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Lexical Diversity in Kinship Across Languages and Dialects [6.80465507148218]
本稿では,言語多様性に関する内容と計算語彙を融合させる手法を提案する。
本手法は、血縁用語に関する2つの大規模ケーススタディを通じて検証される。
論文 参考訳(メタデータ) (2023-08-24T19:49:30Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Having Beer after Prayer? Measuring Cultural Bias in Large Language
Models [28.09972358912354]
多言語およびアラビア語のモノリンガルLMは、西洋文化に関連する実体に対して偏見を示すことを示す。
アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。
CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、12の異なるLMのアラビア語における異文化間性能について検討した。
論文 参考訳(メタデータ) (2023-05-23T18:27:51Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Modeling the Music Genre Perception across Language-Bound Cultures [10.223656553455003]
本研究では,言語横断・文化特化音楽ジャンルアノテーションの実現可能性について検討する。
教師なしの言語間音楽ジャンルのアノテーションは高い精度で実現可能であることを示す。
我々は,多言語事前学習型埋め込みモデルのベンチマークを行うために,新しいドメイン依存型言語間コーパスを導入する。
論文 参考訳(メタデータ) (2020-10-13T12:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。