論文の概要: Pearl: A Multimodal Culturally-Aware Arabic Instruction Dataset
- arxiv url: http://arxiv.org/abs/2505.21979v1
- Date: Wed, 28 May 2025 05:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.422842
- Title: Pearl: A Multimodal Culturally-Aware Arabic Instruction Dataset
- Title(参考訳): パール:多言語文化に配慮したアラビア語教育データセット
- Authors: Fakhraddin Alwajih, Samar Mohamed Magdy, Abdellah El Mekki, Omer Nacar, Youssef Nafea, Safaa Taher Abdelfadil, Abdulfattah Mohammed Yahya, Hamzah Luqman, Nada Almarwani, Samah Aloufi, Baraah Qawasmeh, Houdaifa Atou, Serry Sibaee, Hamzah A. Alsayadi, Walid Al-Dhabyani, Maged S. Al-shaibani, Aya El aatar, Nour Qandos, Rahaf Alhamouri, Samar Ahmad, Razan Khassib, Lina Hamad, Mohammed Anwar AL-Ghrawi, Fatimah Alshamari, Cheikh Malainine, Doaa Qawasmeh, Aminetou Yacoub, Tfeil moilid, Ruwa AbuHweidi, Ahmed Aboeitta, Vatimetou Mohamed Lemin, Reem Abdel-Salam, Ahlam Bashiti, Adel Ammar, Aisha Alansari, Ahmed Ashraf, Nora Alturayeif, Sara Shatnawi, Alcides Alcoba Inciarte, AbdelRahim A. Elmadany, Mohamedou cheikh tourad, Ismail Berrada, Mustafa Jarrar, Shady Shehata, Muhammad Abdul-Mageed,
- Abstract要約: パールは、文化的理解のために設計された大規模なアラビアのマルチモーダルデータセットとベンチマークである。
パールは、アラブ諸国全体をカバーする文化的に重要な10の領域にまたがるK以上の例で構成されている。
すべてのデータセットとベンチマークが公開されている。
- 参考スコア(独自算出の注目度): 12.82077543643678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream large vision-language models (LVLMs) inherently encode cultural biases, highlighting the need for diverse multimodal datasets. To address this gap, we introduce Pearl, a large-scale Arabic multimodal dataset and benchmark explicitly designed for cultural understanding. Constructed through advanced agentic workflows and extensive human-in-the-loop annotations by 45 annotators from across the Arab world, Pearl comprises over K multimodal examples spanning ten culturally significant domains covering all Arab countries. We further provide two robust evaluation benchmarks Pearl and Pearl-Lite along with a specialized subset Pearl-X explicitly developed to assess nuanced cultural variations. Comprehensive evaluations on state-of-the-art open and proprietary LVLMs demonstrate that reasoning-centric instruction alignment substantially improves models' cultural grounding compared to conventional scaling methods. Pearl establishes a foundational resource for advancing culturally-informed multimodal modeling research. All datasets and benchmarks are publicly available.
- Abstract(参考訳): 主流の大規模視覚言語モデル(LVLM)は本質的に文化的バイアスを符号化しており、多様なマルチモーダルデータセットの必要性を強調している。
このギャップに対処するため、我々は大規模なアラビアマルチモーダルデータセットであるPearlを導入し、文化的理解のために明示的に設計されたベンチマークを行った。
先進的なエージェントのワークフローと、アラブ世界の45の注釈者による広範な人文の注釈によって構築され、パールはアラブ諸国の文化的に重要な10の領域にまたがるK以上のマルチモーダルの例で構成されている。
さらに2つの頑健な評価ベンチマークであるPearl-LiteとPearl-Xを,微妙な文化的変動を評価するために明示的に開発したPearl-Xとともに提供する。
最先端のオープンかつプロプライエタリなLVLMに関する総合的な評価は、推論中心の命令アライメントが従来のスケーリング手法と比較して、モデルの文化的基盤を著しく改善することを示している。
パールは、文化的にインフォームドされたマルチモーダルモデリング研究を進めるための基礎的な資源を確立している。
すべてのデータセットとベンチマークが公開されている。
関連論文リスト
- CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs [14.874327728051288]
アラブ22カ国を対象とする1年間のコミュニティ主導プロジェクトであるデータセットを紹介します。
このデータセットには、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方の指示が含まれており、20種類のトピックにまたがっている。
我々は、いくつかのフロンティアLSMの文化的・弁証的能力を評価するためにデータセットを使用し、顕著な限界を明らかにした。
論文 参考訳(メタデータ) (2025-02-28T19:59:13Z) - Beyond Words: Exploring Cultural Value Sensitivity in Multimodal Models [26.051898880298126]
文化的文脈に基づく大規模言語モデルにおける価値アライメントの調査は、重要な研究領域となっている。
同様のバイアスは、大きな視覚言語モデル(VLM)では広く研究されていない。
論文 参考訳(メタデータ) (2025-02-18T19:03:02Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models [22.92083941222383]
DALL-E 3によって生成され、人間によって検証される大規模なデータセットであるDalleStreetを紹介する。
我々は,オープンソース(LLaVA)とクローズドソース(GPT-4V)の両方のモデルを用いて,地理的サブリージョンレベルでの文化的理解の相違を見出した。
以上の結果から,LMMの文化的能力の微妙なイメージが浮かび上がっており,文化認識システムの開発の必要性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-07-02T08:55:41Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。