論文の概要: TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs
- arxiv url: http://arxiv.org/abs/2505.11275v3
- Date: Tue, 20 May 2025 02:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.395122
- Title: TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs
- Title(参考訳): TCC-Bench: MLLMの伝統的な中国文化理解能力のベンチマーク
- Authors: Pengju Xu, Yan Wang, Shuyuan Zhang, Xuan Zhou, Xin Li, Yue Yuan, Fengzhao Li, Shunyuan Zhou, Xingyu Wang, Yi Zhang, Haiying Zhao,
- Abstract要約: 中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
- 参考スコア(独自算出の注目度): 13.069833806549914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in Multimodal Large Language Models (MLLMs) have significantly enhanced the ability of artificial intelligence systems to understand and generate multimodal content. However, these models often exhibit limited effectiveness when applied to non-Western cultural contexts, which raises concerns about their wider applicability. To address this limitation, we propose the Traditional Chinese Culture understanding Benchmark (TCC-Bench), a bilingual (i.e., Chinese and English) Visual Question Answering (VQA) benchmark specifically designed for assessing the understanding of traditional Chinese culture by MLLMs. TCC-Bench comprises culturally rich and visually diverse data, incorporating images from museum artifacts, everyday life scenes, comics, and other culturally significant contexts. We adopt a semi-automated pipeline that utilizes GPT-4o in text-only mode to generate candidate questions, followed by human curation to ensure data quality and avoid potential data leakage. The benchmark also avoids language bias by preventing direct disclosure of cultural concepts within question texts. Experimental evaluations across a wide range of MLLMs demonstrate that current models still face significant challenges when reasoning about culturally grounded visual content. The results highlight the need for further research in developing culturally inclusive and context-aware multimodal systems. The code and data can be found at: https://tcc-bench.github.io/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、人工知能システムによるマルチモーダルコンテンツの理解と生成能力を大幅に向上させてきた。
しかしながら、これらのモデルは西洋以外の文化的な文脈に適用した場合に限定的な効果を示すことが多く、より広い適用性に対する懸念を生じさせる。
この制限に対処するために,従来の中国文化理解ベンチマーク (TCC-Bench) を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
このベンチマークは、質問文内の文化的概念の直接的な開示を防止し、言語バイアスを回避している。
MLLMの幅広い範囲にわたる実験的評価は、現在のモデルが文化的基盤を持つ視覚的コンテンツを推論する場合、依然として重大な課題に直面していることを示している。
この結果は、文化的に包括的でコンテキスト対応のマルチモーダルシステムの開発において、さらなる研究の必要性を浮き彫りにしている。
コードとデータは、https://tcc-bench.github.io/.com/で確認できる。
関連論文リスト
- Towards Cross-modal Retrieval in Chinese Cultural Heritage Documents: Dataset and Solution [13.303788484531779]
クロスモーダル検索は中国文化遺産の理解と解釈において重要な役割を担っている。
中国文化遺産に関する特別なデータセットが不足している。
そこで我々は,中国語-CLIPを微調整した学習自由な局所アライメント戦略であるLACLIPを提案する。
論文 参考訳(メタデータ) (2025-05-16T06:52:46Z) - CARE: Aligning Language Models for Regional Cultural Awareness [28.676469530858924]
既存の言語モデル(LM)はしばしば西洋中心のバイアスを示し、多様な文化的知識を表現するのに苦労する。
これに対処する以前の試みは、合成データに頼り、文化的な知識を英語でのみ表現するものだった。
まず、中国文化とアラブ文化に関する2,580の質問に対して、人選好による24.1k応答の多言語リソースであるCAREを紹介した。
論文 参考訳(メタデータ) (2025-04-07T14:57:06Z) - Unveiling Cultural Blind Spots: Analyzing the Limitations of mLLMs in Procedural Text Comprehension [6.0422282033999135]
我々は,mLLMsの文化的に多様な手続き的テキストの処理と推論能力を評価するためのベンチマークであるCAPTexを紹介する。
以上の結果から,mLLMsは文化的に文脈化された手続き文の難易度に直面することが示唆された。
多様な言語・文化の景観にまたがる適応性と理解を高めるため、CAPTexのような文化的に意識されたベンチマークの必要性を強調した。
論文 参考訳(メタデータ) (2025-02-20T07:01:08Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。