論文の概要: BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.11178v1
- Date: Mon, 13 Oct 2025 09:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.288298
- Title: BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models
- Title(参考訳): BLEnD-Vis:ビジョン言語モデルにおけるマルチモーダル文化理解のベンチマーク
- Authors: Bryan Chen Zhengyu Tan, Zheng Weihua, Zhengyuan Liu, Nancy F. Chen, Hwaran Lee, Kenny Tsu Wei Choo, Roy Ka-Wei Lee,
- Abstract要約: 視覚言語モデル(VLM)における日常的文化的知識の堅牢性を評価するためのベンチマークであるBLEnD-Visを紹介する。
BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列した複数選択形式を生成する。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションで検証された21,000以上のMultiple-choice Question (MCQ)インスタンスで構成されている。
- 参考スコア(独自算出の注目度): 54.16874020794336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As vision-language models (VLMs) are deployed globally, their ability to understand culturally situated knowledge becomes essential. Yet, existing evaluations largely assess static recall or isolated visual grounding, leaving unanswered whether VLMs possess robust and transferable cultural understanding. We introduce BLEnD-Vis, a multimodal, multicultural benchmark designed to evaluate the robustness of everyday cultural knowledge in VLMs across linguistic rephrasings and visual modalities. Building on the BLEnD dataset, BLEnD-Vis constructs 313 culturally grounded question templates spanning 16 regions and generates three aligned multiple-choice formats: (i) a text-only baseline querying from Region $\to$ Entity, (ii) an inverted text-only variant (Entity $\to$ Region), and (iii) a VQA-style version of (ii) with generated images. The resulting benchmark comprises 4,916 images and over 21,000 multiple-choice question (MCQ) instances, validated through human annotation. BLEnD-Vis reveals significant fragility in current VLM cultural knowledge; models exhibit performance drops under linguistic rephrasing and, whilst visual cues often aid performance, low cross-modal consistency highlights challenges in robustly integrating textual and visual understanding, particularly for lower-resource regions. BLEnD-Vis thus provides a crucial testbed for systematically analysing cultural robustness and multimodal grounding, exposing limitations and guiding the development of more culturally competent VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は世界規模で展開されるため、文化的に位置する知識を理解する能力は不可欠である。
しかし、既存の評価は、静的なリコールや孤立した視覚的接地を評価し、VLMが堅牢で伝達可能な文化的理解を持っているかどうかを疑問視している。
BLEnD-Visは,VLMにおける日常的な文化的知識の頑健さを,言語的言い換えや視覚的モダリティで評価するためのマルチモーダル・マルチカルチャーベンチマークである。
BLEnDデータセットに基づいて、BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列多重選択フォーマットを生成する。
(i) Region $\to$ Entityからテキストのみのベースラインクエリ
(ii)逆テキストのみの変種(Entity $\to$ Region)と
(iii)VQAスタイルのバージョン
(ii) 生成された画像。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションによって検証された21,000以上のマルチチョイス質問(MCQ)のインスタンスで構成されている。
BLEnD-Visは、現在のVLM文化知識において、言語的言い換えによるパフォーマンス低下を示すモデルや、視覚的手がかりがしばしばパフォーマンスを補助する一方で、低モードの一貫性は、特に低リソース領域において、テキストと視覚的理解を堅牢に統合する上での課題を浮き彫りにする。
これにより、BLEnD-Visは、文化的堅牢性とマルチモーダルグラウンドを体系的に分析し、制限を明らかにし、より文化的に有能なVLMの開発を導くための重要なテストベッドを提供する。
関連論文リスト
- MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation [2.0467354053171243]
本稿では,マルチモーダルストーリー生成による視覚言語モデル(VLM)の文化的能力の総合評価を行う。
分析の結果,文化的に特有な語彙が多岐にわたる文化的適応能力,家族用語,地理的マーカーが明らかとなった。
文化的な能力はアーキテクチャによって劇的に変化し、いくつかのモデルは逆の文化的アライメントを示し、自動化されたメトリクスは人間の評価と矛盾するアーキテクチャ上のバイアスを示しています。
論文 参考訳(メタデータ) (2025-08-22T19:39:02Z) - Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。
本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文 参考訳(メタデータ) (2025-06-13T14:23:38Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - Uncovering Cultural Representation Disparities in Vision-Language Models [45.032609066023504]
VLM(Vision-Language Models)は、様々なタスクにまたがる印象的な機能を示しているが、その潜在的なバイアスには懸念がある。
本研究は、画像に基づく国識別タスクにおいて、その成果を国レベルで評価することにより、著名なVLMが文化的偏見を示す程度について検討する。
論文 参考訳(メタデータ) (2025-05-20T02:04:09Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。