論文の概要: No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 Languages
- arxiv url: http://arxiv.org/abs/2411.03769v1
- Date: Wed, 06 Nov 2024 09:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:25:04.782218
- Title: No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 Languages
- Title(参考訳): 文化は残っていない - ArtELingo-28,28言語で制限付きWikiArtのベンチマーク
- Authors: Youssef Mohamed, Runjia Li, Ibrahim Said Ahmad, Kilichbek Haydarov, Philip Torr, Kenneth Ward Church, Mohamed Elhoseiny,
- Abstract要約: ArtELingo-28は、textbf28$言語にまたがるビジョン言語ベンチマークである。
課題は、イメージに感情的なキャプションを割り当てる機械学習システムを構築することだ。
言語間移動は、文化的に関連のある言語でより成功していることがわかった。
- 参考スコア(独自算出の注目度): 31.214915292513258
- License:
- Abstract: Research in vision and language has made considerable progress thanks to benchmarks such as COCO. COCO captions focused on unambiguous facts in English; ArtEmis introduced subjective emotions and ArtELingo introduced some multilinguality (Chinese and Arabic). However we believe there should be more multilinguality. Hence, we present ArtELingo-28, a vision-language benchmark that spans $\textbf{28}$ languages and encompasses approximately $\textbf{200,000}$ annotations ($\textbf{140}$ annotations per image). Traditionally, vision research focused on unambiguous class labels, whereas ArtELingo-28 emphasizes diversity of opinions over languages and cultures. The challenge is to build machine learning systems that assign emotional captions to images. Baseline results will be presented for three novel conditions: Zero-Shot, Few-Shot and One-vs-All Zero-Shot. We find that cross-lingual transfer is more successful for culturally-related languages. Data and code are provided at www.artelingo.org.
- Abstract(参考訳): ビジョンと言語の研究はCOCOのようなベンチマークのおかげでかなりの進歩を遂げた。
COCOキャプションは英語の曖昧な事実に焦点を当て、ArtEmisは主観的な感情を導入し、ArtELingoは多言語性(中国語とアラビア語)を導入した。
しかし、もっと多言語性があるべきだと考えています。
したがって、ArtELingo-28は、$\textbf{28}$言語にまたがって約$\textbf{200,000}$アノテーションを包含するビジョンベンチマークである。
伝統的に、視覚研究は曖昧なクラスラベルに焦点を当てていたが、ArtELingo-28は言語や文化に対する意見の多様性を強調している。
課題は、イメージに感情的なキャプションを割り当てる機械学習システムを構築することだ。
ベースラインの結果は、Zero-Shot、Few-Shot、One-vs-All Zero-Shotの3つの新しい条件で提示される。
言語間移動は、文化的に関連のある言語でより成功していることがわかった。
データとコードはwww.artelingo.orgで公開されている。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - ArtELingo: A Million Emotion Annotations of WikiArt with Emphasis on
Diversity over Language and Culture [33.055579812262785]
ArtELingoは新しいベンチマークとデータセットで、言語や文化の多様性に関する作業を促進するように設計されている。
ArtEmisに続いて、ArtELingoは、アラビア語と中国語でさらに0.79万のアノテーションを追加し、スペイン語で4.8Kの“文化的な”パフォーマンスを評価する。
この多様性は、言語や文化の類似点や相違点を研究することを可能にする。
論文 参考訳(メタデータ) (2022-11-19T19:34:18Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Learning and Evaluating Emotion Lexicons for 91 Languages [10.06987680744477]
本稿では,任意の対象言語に対して,ほぼ任意に大きな感情辞書を作成する手法を提案する。
我々は8つの感情変数と100k以上の語彙エントリからなる表現に富んだ高被覆語彙を生成する。
我々の手法は、辞書作成に対する最先端のモノリンガルなアプローチと一致し、一部の言語や変数に対する人間の信頼性を超越した結果をもたらす。
論文 参考訳(メタデータ) (2020-05-12T10:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。