論文の概要: Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language
Representations
- arxiv url: http://arxiv.org/abs/2306.08658v1
- Date: Wed, 14 Jun 2023 17:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:50:31.636590
- Title: Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language
Representations
- Title(参考訳): Babel-ImageNet:視覚・言語表現の多言語的評価
- Authors: Gregor Geigle, Radu Timofte, Goran Glava\v{s}
- Abstract要約: Babel-ImageNetは、92の言語に1000のImageNetラベルを部分的に翻訳する、非常に多言語なベンチマークである。
92のBabel-ImageNet言語に対して,ゼロショット画像分類 (ZS-IC) を用いた8種類の多言語CLIPモデルの評価を行った。
Babel-ImageNetにおけるモデルZS-ICの性能は,画像テキスト検索の性能と高い相関性を示す。
- 参考スコア(独自算出の注目度): 83.96551676836776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language (VL) models with separate encoders for each modality
(e.g., CLIP) have become the go-to models for zero-shot image classification
and image-text retrieval. The bulk of the evaluation of these models is,
however, performed with English text only: the costly creation of
language-specific image-caption datasets has limited multilingual VL benchmarks
to a handful of high-resource languages. In this work, we introduce
Babel-ImageNet, a massively multilingual benchmark that offers (partial)
translations of 1000 ImageNet labels to 92 languages, built without resorting
to machine translation (MT) or requiring manual annotation. We instead
automatically obtain reliable translations of ImageNext concepts by linking
them -- via shared WordNet synsets -- to BabelNet, a massively multilingual
lexico-semantic network. We evaluate 8 different publicly available
multilingual CLIP models on zero-shot image classification (ZS-IC) for each of
the 92 Babel-ImageNet languages, demonstrating a significant gap between
English ImageNet performance and that of high-resource languages (e.g., German
or Chinese), and an even bigger gap for low-resource languages (e.g., Sinhala
or Lao). Crucially, we show that the models' ZS-IC performance on
Babel-ImageNet highly correlates with their performance in image-text
retrieval, validating that Babel-ImageNet is suitable for estimating the
quality of the multilingual VL representation spaces for the vast majority of
languages that lack gold image-text data. Finally, we show that the performance
of multilingual CLIP for low-resource languages can be drastically improved via
cheap, parameter-efficient language-specific training. We make our code and
data publicly available: \url{https://github.com/gregor-ge/Babel-ImageNet}
- Abstract(参考訳): 視覚と言語(VL)モデルは、各モダリティ(例えばCLIP)ごとに異なるエンコーダを持ち、ゼロショット画像分類と画像テキスト検索のためのゴートモデルになっている。
しかし、これらのモデルの評価の大部分は、英語のテキストのみで行われている: 言語固有の画像キャプチャーデータセットのコストの高い作成は、少数の高リソース言語に限定した多言語VLベンチマークを持つ。
本研究では,1000のimagenetラベルを92言語に(部分的に)翻訳する多言語ベンチマークであるbabel-imagenetを紹介し,機械翻訳(mt)や手動アノテーションを使わずに構築した。
代わりに、共有のwordnetシンセットを介して、imagenext概念の信頼できる翻訳を、巨大な多言語レキシコ・セマンティクスネットワークであるbabelnetにリンクすることで、自動的に取得します。
92のbabel-imagenet言語のそれぞれについて,公開されている8種類のマルチリンガル・クリップモデル(zs-ic)を評価し,英語イメージネットの性能と高リソース言語(ドイツ語や中国語など)と,低リソース言語(シンハラ語やラオ語など)とのギャップを明らかにした。
Babel-ImageNetのZS-IC性能は画像テキスト検索の性能と高い相関性を示し、金色の画像テキストデータを持たないほとんどの言語において、多言語VL表現空間の品質を推定するのにBabel-ImageNetが適していることを示す。
最後に、低リソース言語に対する多言語CLIPの性能は、安価でパラメータ効率の良い言語特化学習によって劇的に改善できることを示す。
コードとデータを公開します。 \url{https://github.com/gregor-ge/Babel-ImageNet}
関連論文リスト
- Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Contrastive Language-Image Pre-training for the Italian Language [4.804798944613199]
イタリア語(CLIP-Italian)における最初のCLIPモデルについて述べる。
その結果,CLIP-Italianは画像検索やゼロショット分類のタスクにおいて,多言語CLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T13:53:47Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。