論文の概要: Grounding Multilingual Multimodal LLMs With Cultural Knowledge
- arxiv url: http://arxiv.org/abs/2508.07414v2
- Date: Tue, 12 Aug 2025 05:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 12:16:51.416827
- Title: Grounding Multilingual Multimodal LLMs With Cultural Knowledge
- Title(参考訳): 文化的知識による多言語多モーダルLLMの接地
- Authors: Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, Graham Neubig,
- Abstract要約: 本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。
CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
- 参考スコア(独自算出の注目度): 48.95126394270723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models excel in high-resource settings, but often misinterpret long-tail cultural entities and underperform in low-resource languages. To address this gap, we propose a data-centric approach that directly grounds MLLMs in cultural knowledge. Leveraging a large scale knowledge graph from Wikidata, we collect images that represent culturally significant entities, and generate synthetic multilingual visual question answering data. The resulting dataset, CulturalGround, comprises 22 million high-quality, culturally-rich VQA pairs spanning 42 countries and 39 languages. We train an open-source MLLM CulturalPangea on CulturalGround, interleaving standard multilingual instruction-tuning data to preserve general abilities. CulturalPangea achieves state-of-the-art performance among open models on various culture-focused multilingual multimodal benchmarks, outperforming prior models by an average of 5.0 without degrading results on mainstream vision-language tasks. Our findings show that our targeted, culturally grounded approach could substantially narrow the cultural gap in MLLMs and offer a practical path towards globally inclusive multimodal systems.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、高リソース環境では優れているが、しばしばロングテールな文化的実体を誤って解釈し、低リソースの言語では過小評価される。
このギャップに対処するため,MLLMを文化的知識に直接根ざしたデータ中心型アプローチを提案する。
Wikidataから大規模知識グラフを活用することで、文化的に重要なエンティティを表す画像を収集し、合成多言語視覚質問応答データを生成する。
得られたデータセットであるCulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
CulturalPangeaは、様々なカルチャーに焦点を当てた多言語マルチモーダルベンチマークのオープンモデルにおける最先端のパフォーマンスを達成し、メインストリームの視覚言語タスクの結果を劣化させることなく、平均5.0で先行モデルを上回っている。
本研究は,MLLMの文化的ギャップを著しく狭め,グローバルな包括的マルチモーダルシステムへの実践的な道筋を示唆するものである。
関連論文リスト
- MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs [24.075526141969625]
MLLM(Multimodal Large Language Models)は、高リソース言語において顕著な性能を示す。
しかし、その効果は低リソース言語の文脈において著しく低下する。
本稿では,各目標に合ったデータの収集をガイドするデュアルソース戦略を提案し,文化のためのネイティブなウェブアルトテキストと言語学のためのMLLM生成キャプションをソーシングする。
実験結果から,MELLAを微調整した後,MLLMバックボーン上の8言語に対して,汎用的な性能向上が得られた。
論文 参考訳(メタデータ) (2025-08-07T15:36:24Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs [2.5212698425008377]
大規模言語モデル(LLM)は、グローバル言語全体でますます能力を高めつつある。
しかし、言語間のコミュニケーション能力が必ずしも適切な文化的表現に変換されるとは限らない。
GoogleのGemmaモデルとOpenAIのターボシリーズの2つのモデルを比較します。
言語能力と文化的アライメントの間には、一貫した関係は見つからない。
論文 参考訳(メタデータ) (2025-02-23T11:02:41Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。