論文の概要: EgMM-Corpus: A Multimodal Vision-Language Dataset for Egyptian Culture
- arxiv url: http://arxiv.org/abs/2510.16198v1
- Date: Fri, 17 Oct 2025 20:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.731912
- Title: EgMM-Corpus: A Multimodal Vision-Language Dataset for Egyptian Culture
- Title(参考訳): EgMM-Corpus:エジプト文化のためのマルチモーダルビジョンランゲージデータセット
- Authors: Mohamed Gamil, Abdelrahman Elsayed, Abdelrahman Lila, Ahmed Gad, Hesham Abdelgawad, Mohamed Aref, Ahmed Fares,
- Abstract要約: エジプト文化専用のマルチモーダルデータセットであるEgMM-Corpusを紹介する。
データセットの各エントリは、文化的信頼性とマルチモーダルコヒーレンスのために手動で検証される。
EgMM-Corpusにおけるコントラスト言語-画像事前学習CLIPのゼロショット性能を評価する。
- 参考スコア(独自算出の注目度): 1.0170138197592686
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent advances in AI, multimodal culturally diverse datasets are still limited, particularly for regions in the Middle East and Africa. In this paper, we introduce EgMM-Corpus, a multimodal dataset dedicated to Egyptian culture. By designing and running a new data collection pipeline, we collected over 3,000 images, covering 313 concepts across landmarks, food, and folklore. Each entry in the dataset is manually validated for cultural authenticity and multimodal coherence. EgMM-Corpus aims to provide a reliable resource for evaluating and training vision-language models in an Egyptian cultural context. We further evaluate the zero-shot performance of Contrastive Language-Image Pre-training CLIP on EgMM-Corpus, on which it achieves 21.2% Top-1 accuracy and 36.4% Top-5 accuracy in classification. These results underscore the existing cultural bias in large-scale vision-language models and demonstrate the importance of EgMM-Corpus as a benchmark for developing culturally aware models.
- Abstract(参考訳): AIの最近の進歩にもかかわらず、特に中東やアフリカの地域では、マルチモーダルな文化的に多様なデータセットはまだ限られている。
本稿ではエジプト文化専用のマルチモーダルデータセットであるEgMM-Corpusを紹介する。
新しいデータ収集パイプラインを設計し、運用することで、3000以上の画像を収集し、ランドマーク、食べ物、民俗学の313のコンセプトをカバーしました。
データセットの各エントリは、文化的信頼性とマルチモーダルコヒーレンスのために手動で検証される。
EgMM-Corpusは、エジプト文化の文脈における視覚言語モデルの評価と訓練のための信頼性の高いリソースを提供することを目的としている。
EgMM-Corpusにおけるコントラスト言語-画像事前学習CLIPのゼロショット性能をさらに評価し,21.2%のTop-1精度と36.4%のTop-5精度を達成した。
これらの結果は、大規模視覚言語モデルにおける既存の文化的バイアスを強調し、文化的に認識されたモデルを開発するためのベンチマークとして、EgMM-Corpusの重要性を実証する。
関連論文リスト
- Pearl: A Multimodal Culturally-Aware Arabic Instruction Dataset [28.016981736730617]
PEARLは、文化的理解のために設計された大規模なアラビアのマルチモーダルデータセットとベンチマークである。
PEARLは、文化的に重要な10の領域にまたがる309K以上の例で構成されている。
論文 参考訳(メタデータ) (2025-05-28T05:14:47Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models [22.92083941222383]
DALL-E 3によって生成され、人間によって検証される大規模なデータセットであるDalleStreetを紹介する。
我々は,オープンソース(LLaVA)とクローズドソース(GPT-4V)の両方のモデルを用いて,地理的サブリージョンレベルでの文化的理解の相違を見出した。
以上の結果から,LMMの文化的能力の微妙なイメージが浮かび上がっており,文化認識システムの開発の必要性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-07-02T08:55:41Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。