Fugu-MT 論文翻訳(概要): MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

論文の概要: MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

arxiv url: http://arxiv.org/abs/2502.12852v1
Date: Tue, 18 Feb 2025 13:40:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.970202
Title: MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching
Title（参考訳）: MVL-SIB:多言語視覚言語ベンチマーク
Authors: Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš,
Abstract要約: MVL-SIBは,205言語にまたがるクロスモーダルおよびテキストのみのトピックマッチングを評価する多言語視覚ベンチマークである。以上の結果から,LVLM は低リソース言語ではクロスモーダルなトピックマッチングに苦慮し,N'Koo などの言語ではチャンスに劣らない性能を示した。
参考スコア（独自算出の注目度）: 19.13134780850277
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Existing multilingual vision-language (VL) benchmarks often only cover a handful of languages. Consequently, evaluations of large vision-language models (LVLMs) predominantly target high-resource languages, underscoring the need for evaluation data for low-resource languages. To address this limitation, we introduce MVL-SIB, a massively multilingual vision-language benchmark that evaluates both cross-modal and text-only topical matching across 205 languages -- over 100 more than the most multilingual existing VL benchmarks encompass. We then benchmark a range of of open-weight LVLMs together with GPT-4o(-mini) on MVL-SIB. Our results reveal that LVLMs struggle in cross-modal topic matching in lower-resource languages, performing no better than chance on languages like N'Koo. Our analysis further reveals that VL support in LVLMs declines disproportionately relative to textual support for lower-resource languages, as evidenced by comparison of cross-modal and text-only topical matching performance. We further observe that open-weight LVLMs do not benefit from representing a topic with more than one image, suggesting that these models are not yet fully effective at handling multi-image tasks. By correlating performance on MVL-SIB with other multilingual VL benchmarks, we highlight that MVL-SIB serves as a comprehensive probe of multilingual VL understanding in LVLMs.
Abstract（参考訳）: 既存の多言語視覚言語(VL)ベンチマークは、少数の言語しかカバーしていないことが多い。その結果、大規模視覚言語モデル(LVLM)の評価は、主に高リソース言語を対象としており、低リソース言語に対する評価データの必要性を浮き彫りにしている。この制限に対処するため、MVL-SIBは、205言語にわたるクロスモーダルとテキストのみのトピックマッチングの両方を評価する、非常に多言語な視覚言語ベンチマークである。次に、MVL-SIB上のGPT-4o(-mini)とともに、様々なオープンウェイトLVLMをベンチマークする。以上の結果から,LVLM は低リソース言語ではクロスモーダルなトピックマッチングに苦慮し,N'Koo などの言語ではチャンスに劣らない性能を示した。分析の結果,LVLMにおけるVLサポートは低リソース言語に対するテキストサポートと比較して不均等に低下し,クロスモーダルとテキストのみのトピックマッチング性能の比較によって証明された。さらに、オープンウェイトなLVLMは、複数のイメージを持つトピックを表現することの恩恵を受けていないことを観察し、これらのモデルがマルチイメージタスクの処理においてまだ完全には有効ではないことを示唆している。 MVL-SIBと他の多言語VLベンチマークのパフォーマンスを関連付けることにより、MVL-SIBがLVLMにおける多言語VL理解の包括的調査として機能することを明らかにする。

関連論文リスト

Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文参考訳（メタデータ） (2025-06-13T14:23:38Z)
mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks [11.996399504336624]
我々は,大規模言語モデル(LLM)の性能を幅広いタスクで評価するための新しいベンチマークであるmSTEBを紹介する。我々は,Gemini 2.0 Flash や GPT-4o (Audio) などの主要な LLM や Qwen 2 Audio や Gemma 3 27B といった最先端のオープンモデルの性能を評価する。
論文参考訳（メタデータ） (2025-06-10T03:15:08Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
Exploring the Multilingual NLG Evaluation Abilities of LLM-Based Evaluators [38.681443695708786]
本研究は,近年の10個のLLMの多言語評価性能を包括的に分析する。参照応答をプロンプトから除外すると、様々な言語のパフォーマンスが向上することがわかった。 LLMに基づく評価器の多くは、低リソース言語よりも、高リソース言語における人間の判断と高い相関関係を示す。
論文参考訳（メタデータ） (2025-03-06T12:04:29Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。 2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文参考訳（メタデータ） (2024-08-23T00:59:38Z)
VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文参考訳（メタデータ） (2024-03-19T21:31:56Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文参考訳（メタデータ） (2024-02-15T15:43:05Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文参考訳（メタデータ） (2023-10-12T09:39:17Z)
MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文参考訳（メタデータ） (2023-09-14T17:59:17Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Meta-learning For Vision-and-language Cross-lingual Transfer [14.594704809280984]
バイソン言語モデルのための新しいメタラーニング微調整フレームワークを提案する。我々のフレームワークは、現在のPVLMを視覚言語シナリオにおける新しい言語に迅速に適応させる。本手法は, ゼロショットと少数ショットのクロスランガル転送において, 現在のPVLMの性能を向上させる。
論文参考訳（メタデータ） (2023-05-24T07:51:42Z)
Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文参考訳（メタデータ） (2023-04-10T15:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。