論文の概要: VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding
- arxiv url: http://arxiv.org/abs/2601.07986v1
- Date: Mon, 12 Jan 2026 20:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.942082
- Title: VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding
- Title(参考訳): VULCA-Bench: 文化的理解を評価するための多文化ビジョンランゲージベンチマーク
- Authors: Haorui Yu, Ramon Ruiz-Dolz, Diji Yang, Hang He, Fengrui Zhang, Qiufeng Yi,
- Abstract要約: VULCA-Benchは、視覚・言語モデル(VLM)の文化的理解を表面的な視覚的知覚を超えて評価するための多文化的アート批判ベンチマークである。
既存のVLMベンチマークは主にL1-L2の能力を測定し、高次の文化的解釈を過小評価している。
VULCA-Benchには8つの文化伝統にまたがる7,410のマッチングされた画像批評対があり、中国語と英語のバイリンガルがカバーされている。
- 参考スコア(独自算出の注目度): 7.342985549865413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VULCA-Bench, a multicultural art-critique benchmark for evaluating Vision-Language Models' (VLMs) cultural understanding beyond surface-level visual perception. Existing VLM benchmarks predominantly measure L1-L2 capabilities (object recognition, scene description, and factual question answering) while under-evaluate higher-order cultural interpretation. VULCA-Bench contains 7,410 matched image-critique pairs spanning eight cultural traditions, with Chinese-English bilingual coverage. We operationalise cultural understanding using a five-layer framework (L1-L5, from Visual Perception to Philosophical Aesthetics), instantiated as 225 culture-specific dimensions and supported by expert-written bilingual critiques. Our pilot results indicate that higher-layer reasoning (L3-L5) is consistently more challenging than visual and technical analysis (L1-L2). The dataset, evaluation scripts, and annotation tools are available under CC BY 4.0 in the supplementary materials.
- Abstract(参考訳): VULCA-Benchは、視覚・言語モデル(VLM)の文化的理解を表面的な視覚的知覚を超えて評価するための多文化的アート批判ベンチマークである。
既存のVLMベンチマークは、L1-L2の能力(物体認識、シーン記述、事実質問応答)を高次の文化的解釈を過小評価しながら測定する。
VULCA-Benchには8つの文化伝統にまたがる7,410のマッチングされた画像批評対があり、中国語と英語のバイリンガルがカバーされている。
我々は5層構造の枠組み(L1-L5,視覚知覚から哲学美学まで)を用いて文化理解を運用し、225の文化特化次元としてインスタンス化し、専門家によるバイリンガル批判の支援を受ける。
その結果,高層推論 (L3-L5) は視覚的, 技術的解析 (L1-L2) よりも常に困難であることが示唆された。
データセット、評価スクリプト、アノテーションツールは補足材料でCC BY 4.0で利用可能である。
関連論文リスト
- Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models [54.16874020794336]
視覚言語モデル(VLM)における日常的文化的知識の堅牢性を評価するためのベンチマークであるBLEnD-Visを紹介する。
BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列した複数選択形式を生成する。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションで検証された21,000以上のMultiple-choice Question (MCQ)インスタンスで構成されている。
論文 参考訳(メタデータ) (2025-10-13T09:10:05Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。
我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。
質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文 参考訳(メタデータ) (2024-07-15T17:21:41Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。