論文の概要: JEEM: Vision-Language Understanding in Four Arabic Dialects
- arxiv url: http://arxiv.org/abs/2503.21910v1
- Date: Thu, 27 Mar 2025 18:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:36.714692
- Title: JEEM: Vision-Language Understanding in Four Arabic Dialects
- Title(参考訳): JEEM:4つのアラビア方言における視覚言語理解
- Authors: Karima Kadaoui, Hanin Atwany, Hamdan Al-Ali, Abdelrahman Mohamed, Ali Mekky, Sergei Tilga, Natalia Fedorova, Ekaterina Artemova, Hanan Aldarmaki, Yova Kementchedjhieva,
- Abstract要約: このデータセットは、視覚言語モデル(VLM)が方言をまたいで一般化する能力を評価することを目的としている。
5つの著名なオープンソースのアラビア語 VLM と GPT-4V の評価において,アラビア語 VLM は視覚的理解と方言固有の生成に苦慮し,一貫して性能が低下していることがわかった。
このことは、より包括的なモデルの必要性と、文化的に異なる評価パラダイムの価値を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 17.255723895477526
- License:
- Abstract: We introduce JEEM, a benchmark designed to evaluate Vision-Language Models (VLMs) on visual understanding across four Arabic-speaking countries: Jordan, The Emirates, Egypt, and Morocco. JEEM includes the tasks of image captioning and visual question answering, and features culturally rich and regionally diverse content. This dataset aims to assess the ability of VLMs to generalize across dialects and accurately interpret cultural elements in visual contexts. In an evaluation of five prominent open-source Arabic VLMs and GPT-4V, we find that the Arabic VLMs consistently underperform, struggling with both visual understanding and dialect-specific generation. While GPT-4V ranks best in this comparison, the model's linguistic competence varies across dialects, and its visual understanding capabilities lag behind. This underscores the need for more inclusive models and the value of culturally-diverse evaluation paradigms.
- Abstract(参考訳): JEEMは、アラビア語圏の4カ国(ヨルダン、アラブ首長国連邦、エジプト、モロッコ)の視覚的理解に関するビジョン・ランゲージ・モデル(VLM)を評価するために設計されたベンチマークである。
JEEMは画像キャプションと視覚的質問応答のタスクを含み、文化的に豊かで地域的に多様なコンテンツを特徴としている。
このデータセットは、VLMが方言全体にわたって一般化し、視覚的文脈における文化的要素を正確に解釈する能力を評価することを目的としている。
5つの著名なオープンソースのアラビア語 VLM と GPT-4V の評価において,アラビア語 VLM は視覚的理解と方言固有の生成に苦慮し,一貫して性能が低下していることがわかった。
GPT-4Vはこの比較において最良であるが、モデルの言語能力は方言によって異なり、その視覚的理解能力は遅れている。
このことは、より包括的なモデルの必要性と、文化的に異なる評価パラダイムの価値を浮き彫りにしている。
関連論文リスト
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。
我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。
質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文 参考訳(メタデータ) (2024-07-15T17:21:41Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing [20.020624506393577]
我々は,MARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,その能力と視覚的理解の限界について検討した。
実験結果から,GPT-4Vは文化概念の同定に優れるが,低リソース言語では依然として性能が弱いことが示唆された。
論文 参考訳(メタデータ) (2024-02-08T19:25:40Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。