論文の概要: Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation
- arxiv url: http://arxiv.org/abs/2504.07072v1
- Date: Wed, 09 Apr 2025 17:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:38.999713
- Title: Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation
- Title(参考訳): Kaleidoscope:多言語視覚評価のためのインランゲージ・エクササイズ
- Authors: Israfel Salazar, Manuel Fernández Burda, Shayekh Bin Islam, Arshia Soltani Moakhar, Shivalika Singh, Fabian Farestam, Angelika Romanou, Danylo Boiko, Dipika Khullar, Mike Zhang, Dominik Krzemiński, Jekaterina Novikova, Luísa Shimabucoro, Joseph Marvin Imperial, Rishabh Maheshwary, Sharad Duwal, Alfonso Amayuelas, Swati Rajwal, Jebish Purbey, Ahmed Ruby, Nicholas Popovič, Marek Suppa, Azmine Toushik Wasi, Ram Mohan Rao Kadiyala, Olga Tsymboi, Maksim Kostritsya, Bardia Soltani Moakhar, Gabriel da Costa Merlin, Otávio Ferracioli Coletti, Maral Jabbari Shiviari, MohammadAmin farahani fard, Silvia Fernandez, María Grandury, Dmitry Abulkhanov, Drishti Sharma, Andre Guarnier De Mitri, Leticia Bossatto Marchezi, Johan Obando-Ceron, Nazar Kohut, Beyza Ermis, Desmond Elliott, Enzo Ferrante, Sara Hooker, Marzieh Fadaee,
- Abstract要約: 視覚言語モデルの多言語評価において,Kaleidoscopeをこれまでで最も包括的な評価ベンチマークとして提案する。
Kaleidoscopeは18の言語と14の異なる主題をカバーする。
トップパフォーマンスの多言語視覚言語モデルを評価し、低リソース言語や複雑なマルチモーダルシナリオでは性能が良くないことを示した。
- 参考スコア(独自算出の注目度): 20.212129057685367
- License:
- Abstract: The evaluation of vision-language models (VLMs) has mainly relied on English-language benchmarks, leaving significant gaps in both multilingual and multicultural coverage. While multilingual benchmarks have expanded, both in size and languages, many rely on translations of English datasets, failing to capture cultural nuances. In this work, we propose Kaleidoscope, as the most comprehensive exam benchmark to date for the multilingual evaluation of vision-language models. Kaleidoscope is a large-scale, in-language multimodal benchmark designed to evaluate VLMs across diverse languages and visual inputs. Kaleidoscope covers 18 languages and 14 different subjects, amounting to a total of 20,911 multiple-choice questions. Built through an open science collaboration with a diverse group of researchers worldwide, Kaleidoscope ensures linguistic and cultural authenticity. We evaluate top-performing multilingual vision-language models and find that they perform poorly on low-resource languages and in complex multimodal scenarios. Our results highlight the need for progress on culturally inclusive multimodal evaluation frameworks.
- Abstract(参考訳): 視覚言語モデル(VLM)の評価は主に英語のベンチマークに依存しており、多言語と多文化の両方で大きなギャップを残している。
多言語ベンチマークはサイズと言語の両方で拡張されているが、多くは英語データセットの翻訳に依存しており、文化的なニュアンスを捉えていない。
本稿では,視覚言語モデルの多言語評価において,これまでで最も包括的な評価ベンチマークであるKaleidoscopeを提案する。
Kaleidoscopeは、様々な言語や視覚入力のVLMを評価するために設計された、大規模でインランゲージなマルチモーダルベンチマークである。
Kaleidoscopeは18の言語と14の異なる主題をカバーする。
Kaleidoscopeは世界中の研究者グループとオープンサイエンスのコラボレーションを通じて構築され、言語と文化の真正性を保証する。
トップパフォーマンスの多言語視覚言語モデルを評価し、低リソース言語や複雑なマルチモーダルシナリオでは性能が良くないことを示した。
本結果は,文化的包括的マルチモーダル評価フレームワークの進歩の必要性を浮き彫りにしている。
関連論文リスト
- Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? [3.902360015414256]
この研究は、多言語設定におけるCLIPScore変種の評価に関連する、いくつかの戦略と広範な実験を提示する。
機械翻訳データを用いたテストでは、多言語CLIPScoreモデルは、異なる言語にわたる人間の判断と高い相関を維持することができる。
論文 参考訳(メタデータ) (2025-02-10T16:00:00Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。