論文の概要: IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs
- arxiv url: http://arxiv.org/abs/2511.04727v1
- Date: Thu, 06 Nov 2025 18:01:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.556552
- Title: IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs
- Title(参考訳): IndicVisionBench: VLMにおける文化的・多言語理解のベンチマーク
- Authors: Ali Faraz, Akash, Shaharukh Khan, Raja Kolla, Akshat Patidar, Suranjan Goswami, Abhinav Ravi, Chandra Khatri, Shubham Agarwal,
- Abstract要約: IndicVisionBenchはインド亜大陸を中心とした最初の大規模ベンチマークである。
我々のベンチマークは光学文字認識(OCR)、マルチモーダル機械翻訳(MMT)、視覚質問応答(VQA)を含む3つのマルチモーダルタスクにまたがる。
さらに,10言語にまたがるアノテーションの並列コーパスをリリースし,VLMの文化的・言語的バイアスを解析するためのユニークなリソースを創出する。
- 参考スコア(独自算出の注目度): 2.697578491761838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have demonstrated impressive generalization across multimodal tasks, yet most evaluation benchmarks remain Western-centric, leaving open questions about their performance in culturally diverse and multilingual settings. To address this gap, we introduce IndicVisionBench, the first large-scale benchmark centered on the Indian subcontinent. Covering English and 10 Indian languages, our benchmark spans 3 multimodal tasks, including Optical Character Recognition (OCR), Multimodal Machine Translation (MMT), and Visual Question Answering (VQA), covering 6 kinds of question types. Our final benchmark consists of a total of ~5K images and 37K+ QA pairs across 13 culturally grounded topics. In addition, we release a paired parallel corpus of annotations across 10 Indic languages, creating a unique resource for analyzing cultural and linguistic biases in VLMs. We evaluate a broad spectrum of 8 models, from proprietary closed-source systems to open-weights medium and large-scale models. Our experiments reveal substantial performance gaps, underscoring the limitations of current VLMs in culturally diverse contexts. By centering cultural diversity and multilinguality, IndicVisionBench establishes a reproducible evaluation framework that paves the way for more inclusive multimodal research.
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダルタスクにまたがる印象的な一般化を実証しているが、ほとんどの評価ベンチマークは西洋中心のままであり、文化的に多様で多言語的な設定におけるそれらのパフォーマンスに関するオープンな疑問を残している。
このギャップに対処するため、インド亜大陸を中心とした最初の大規模ベンチマークであるIndicVisionBenchを紹介する。
英語と10のインド語をカバーするベンチマークでは、光学的文字認識(OCR)、マルチモーダル機械翻訳(MMT)、視覚的質問応答(VQA)の3つのタスクにまたがっている。
最終ベンチマークは、13の文化的根拠のあるトピックにわたる合計5Kイメージと37K以上のQAペアで構成されています。
さらに,10言語にまたがるアノテーションの並列コーパスをリリースし,VLMの文化的・言語的バイアスを解析するためのユニークなリソースを創出する。
我々は,プロプライエタリなクローズドソースシステムから,中規模および大規模モデルまで,幅広い8種類のモデルを評価する。
我々の実験は、文化的に多様な文脈において、現在のVLMの限界を浮き彫りにして、大きなパフォーマンスギャップを明らかにした。
文化の多様性と多言語性に集中することにより、IndicVisionBenchは再現可能な評価フレームワークを確立し、より包括的なマルチモーダル研究の道を開いた。
関連論文リスト
- TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。
微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。
さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文 参考訳(メタデータ) (2025-10-22T17:02:48Z) - BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models [54.16874020794336]
視覚言語モデル(VLM)における日常的文化的知識の堅牢性を評価するためのベンチマークであるBLEnD-Visを紹介する。
BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列した複数選択形式を生成する。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションで検証された21,000以上のMultiple-choice Question (MCQ)インスタンスで構成されている。
論文 参考訳(メタデータ) (2025-10-13T09:10:05Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture [14.681676046750342]
DRISHTIKON(DRISHTIKON)は、インド文化を中心としたマルチモーダルおよび多言語ベンチマークである。
このデータセットは、祭り、服装、料理、芸術形式、歴史遺産を含む豊かな文化的テーマを捉えている。
我々は、オープンソースの小型・大規模モデル、プロプライエタリシステム、推論特化VLM、インデックスにフォーカスしたモデルなど、幅広い視覚言語モデル(VLM)を評価する。
論文 参考訳(メタデータ) (2025-09-23T17:40:43Z) - Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation [20.109615198034394]
視覚言語モデルの多言語評価において,Kaleidoscopeをこれまでで最も包括的な評価ベンチマークとして提案する。
Kaleidoscopeは18の言語と14の異なる主題をカバーする。
トップパフォーマンスの多言語視覚言語モデルを評価し、低リソース言語や複雑なマルチモーダルシナリオでは性能が良くないことを示した。
論文 参考訳(メタデータ) (2025-04-09T17:43:16Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。