論文の概要: Culture In a Frame: C$^3$B as a Comic-Based Benchmark for Multimodal Culturally Awareness
- arxiv url: http://arxiv.org/abs/2510.00041v1
- Date: Sat, 27 Sep 2025 07:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.128151
- Title: Culture In a Frame: C$^3$B as a Comic-Based Benchmark for Multimodal Culturally Awareness
- Title(参考訳): フレームにおけるカルチャー:マルチモーダルな文化的認識のためのコミックベースベンチマークとしてのC$^3$B
- Authors: Yuchen Song, Andong Chen, Wenxin Zhu, Kehai Chen, Xuefeng Bai, Muyun Yang, Tiejun Zhao,
- Abstract要約: C$3$B(textbfC$omics $textbfC$ultural $textbfB$enchmark)を提案する。
C$3$Bは2000枚以上の画像と18000組のQAペアで構成され、3つのタスクで構築される。
11個のオープンソースMLLMに対して評価を行い,MLLMと人為的性能の差を顕著に示した。
- 参考スコア(独自算出の注目度): 42.0719713608222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cultural awareness capabilities has emerged as a critical capability for Multimodal Large Language Models (MLLMs). However, current benchmarks lack progressed difficulty in their task design and are deficient in cross-lingual tasks. Moreover, current benchmarks often use real-world images. Each real-world image typically contains one culture, making these benchmarks relatively easy for MLLMs. Based on this, we propose C$^3$B ($\textbf{C}$omics $\textbf{C}$ross-$\textbf{C}$ultural $\textbf{B}$enchmark), a novel multicultural, multitask and multilingual cultural awareness capabilities benchmark. C$^3$B comprises over 2000 images and over 18000 QA pairs, constructed on three tasks with progressed difficulties, from basic visual recognition to higher-level cultural conflict understanding, and finally to cultural content generation. We conducted evaluations on 11 open-source MLLMs, revealing a significant performance gap between MLLMs and human performance. The gap demonstrates that C$^3$B poses substantial challenges for current MLLMs, encouraging future research to advance the cultural awareness capabilities of MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の重要な機能として,文化的認識能力が出現している。
しかし、現在のベンチマークはタスク設計の難しさを欠き、言語間タスクでは不十分である。
さらに、現在のベンチマークでは、しばしば現実世界の画像を使用する。
各実世界の画像は一般的に1つのカルチャーを含んでいるため、これらのベンチマークはMLLMにとって比較的容易である。
そこで我々はC$^3$B ($\textbf{C}$omics $\textbf{C}$ross-$\textbf{C}$ultural $\textbf{B}$enchmarkを提案する。
C$3$Bは2000以上の画像と18000以上のQAペアで構成され、基本的な視覚認識から高いレベルの文化紛争理解、そして最終的に文化コンテンツ生成までの3つの課題に基づいて構築されている。
11個のオープンソースMLLMに対して評価を行い,MLLMと人為的性能の差を顕著に示した。
このギャップは、C$3$Bが現在のMLLMに重大な課題をもたらし、将来の研究がMLLMの文化的認識能力を高めることを奨励していることを示している。
関連論文リスト
- Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。
CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文 参考訳(メタデータ) (2025-08-10T16:24:11Z) - Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs [42.70690817313555]
KnowRecallとVisRecallの2つの新しいベンチマークを紹介します。
KnowRecallは15の言語における事実的知識の一貫性を測定するために設計された視覚的質問応答ベンチマークである。
VisRecallは、画像にアクセスすることなく、9つの言語でランドマークの外観を記述するようモデルに求めることで、ビジュアルメモリの一貫性を評価する。
論文 参考訳(メタデータ) (2025-05-21T03:43:37Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。