Fugu-MT 論文翻訳(概要): TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs

論文の概要: TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs

arxiv url: http://arxiv.org/abs/2505.11275v3
Date: Tue, 20 May 2025 02:58:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 12:33:37.395122
Title: TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs
Title（参考訳）: TCC-Bench: MLLMの伝統的な中国文化理解能力のベンチマーク
Authors: Pengju Xu, Yan Wang, Shuyuan Zhang, Xuan Zhou, Xin Li, Yue Yuan, Fengzhao Li, Shunyuan Zhou, Xingyu Wang, Yi Zhang, Haiying Zhao,
Abstract要約: 中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。 TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
参考スコア（独自算出の注目度）: 13.069833806549914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in Multimodal Large Language Models (MLLMs) have significantly enhanced the ability of artificial intelligence systems to understand and generate multimodal content. However, these models often exhibit limited effectiveness when applied to non-Western cultural contexts, which raises concerns about their wider applicability. To address this limitation, we propose the Traditional Chinese Culture understanding Benchmark (TCC-Bench), a bilingual (i.e., Chinese and English) Visual Question Answering (VQA) benchmark specifically designed for assessing the understanding of traditional Chinese culture by MLLMs. TCC-Bench comprises culturally rich and visually diverse data, incorporating images from museum artifacts, everyday life scenes, comics, and other culturally significant contexts. We adopt a semi-automated pipeline that utilizes GPT-4o in text-only mode to generate candidate questions, followed by human curation to ensure data quality and avoid potential data leakage. The benchmark also avoids language bias by preventing direct disclosure of cultural concepts within question texts. Experimental evaluations across a wide range of MLLMs demonstrate that current models still face significant challenges when reasoning about culturally grounded visual content. The results highlight the need for further research in developing culturally inclusive and context-aware multimodal systems. The code and data can be found at: https://tcc-bench.github.io/.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の最近の進歩は、人工知能システムによるマルチモーダルコンテンツの理解と生成能力を大幅に向上させてきた。しかしながら、これらのモデルは西洋以外の文化的な文脈に適用した場合に限定的な効果を示すことが多く、より広い適用性に対する懸念を生じさせる。この制限に対処するために,従来の中国文化理解ベンチマーク (TCC-Bench) を提案する。 TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。このベンチマークは、質問文内の文化的概念の直接的な開示を防止し、言語バイアスを回避している。 MLLMの幅広い範囲にわたる実験的評価は、現在のモデルが文化的基盤を持つ視覚的コンテンツを推論する場合、依然として重大な課題に直面していることを示している。この結果は、文化的に包括的でコンテキスト対応のマルチモーダルシステムの開発において、さらなる研究の必要性を浮き彫りにしている。コードとデータは、https://tcc-bench.github.io/.com/で確認できる。

関連論文リスト

CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation [25.213316704661352]
本稿では,5800枚以上の画像のベンチマークであるCaMMTと,英語と地域語でのパラレルキャプションを紹介する。視覚的文脈は一般的に翻訳の質を向上し、特に文化特色項目(CSI)を扱い、性別の使い方を正す。
論文参考訳（メタデータ） (2025-05-30T10:42:44Z)
MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文参考訳（メタデータ） (2025-05-27T19:29:40Z)
CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文参考訳（メタデータ） (2025-05-26T04:08:26Z)
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。 RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文参考訳（メタデータ） (2025-05-20T14:57:16Z)
Towards Cross-modal Retrieval in Chinese Cultural Heritage Documents: Dataset and Solution [13.303788484531779]
クロスモーダル検索は中国文化遺産の理解と解釈において重要な役割を担っている。中国文化遺産に関する特別なデータセットが不足している。そこで我々は,中国語-CLIPを微調整した学習自由な局所アライメント戦略であるLACLIPを提案する。
論文参考訳（メタデータ） (2025-05-16T06:52:46Z)
CARE: Aligning Language Models for Regional Cultural Awareness [28.676469530858924]
既存の言語モデル(LM)はしばしば西洋中心のバイアスを示し、多様な文化的知識を表現するのに苦労する。これに対処する以前の試みは、合成データに頼り、文化的な知識を英語でのみ表現するものだった。まず、中国文化とアラブ文化に関する2,580の質問に対して、人選好による24.1k応答の多言語リソースであるCAREを紹介した。
論文参考訳（メタデータ） (2025-04-07T14:57:06Z)
Unveiling Cultural Blind Spots: Analyzing the Limitations of mLLMs in Procedural Text Comprehension [6.0422282033999135]
我々は,mLLMsの文化的に多様な手続き的テキストの処理と推論能力を評価するためのベンチマークであるCAPTexを紹介する。以上の結果から,mLLMsは文化的に文脈化された手続き文の難易度に直面することが示唆された。多様な言語・文化の景観にまたがる適応性と理解を高めるため、CAPTexのような文化的に意識されたベンチマークの必要性を強調した。
論文参考訳（メタデータ） (2025-02-20T07:01:08Z)
CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文参考訳（メタデータ） (2024-10-20T17:31:19Z)
Can MLLMs Understand the Deep Implication Behind Chinese Images? [29.007010549079098]
中国語画像に対するMLLMの高次知覚と理解能力を評価することを目的とした**C**hinese **I**mage **I**mplication understanding **Bench*mark, **CII-Bench**を紹介する。 CII-Benchの画像は中国のインターネットからソースされ、手動でレビューされ、それに対応する回答も手動で作成される。 CII-Benchは中国伝統文化のイメージを取り入れており、中国の伝統文化に対するモデルの理解を深く反映している。
論文参考訳（メタデータ） (2024-10-17T17:59:24Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文参考訳（メタデータ） (2024-05-22T20:19:10Z)
Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文参考訳（メタデータ） (2024-05-07T20:28:34Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文参考訳（メタデータ） (2023-05-23T17:56:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。