論文の概要: Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
- arxiv url: http://arxiv.org/abs/2506.01565v1
- Date: Mon, 02 Jun 2025 11:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.297308
- Title: Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
- Title(参考訳): Hanfu-Bench: 異文化理解とトランスクリエーションに関するマルチモーダルベンチマーク
- Authors: Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li,
- Abstract要約: Hanfu-Benchは、専門家による新しいマルチモーダルデータセットである。
文化的な視覚的理解と文化的なイメージの再現という2つの中心的な課題から構成される。
我々の評価では, 閉鎖型VLMは視覚的カットラル理解の非専門家と同等に機能するが, 人間の専門家では10%弱に低下する。
トランスクリエーション作業では,多面的評価により,最高の性能モデルがわずか42%の成功率を達成したことが示唆された。
- 参考スコア(独自算出の注目度): 34.186793081759525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Culture is a rich and dynamic domain that evolves across both geography and time. However, existing studies on cultural understanding with vision-language models (VLMs) primarily emphasize geographic diversity, often overlooking the critical temporal dimensions. To bridge this gap, we introduce Hanfu-Bench, a novel, expert-curated multimodal dataset. Hanfu, a traditional garment spanning ancient Chinese dynasties, serves as a representative cultural heritage that reflects the profound temporal aspects of Chinese culture while remaining highly popular in Chinese contemporary society. Hanfu-Bench comprises two core tasks: cultural visual understanding and cultural image transcreation.The former task examines temporal-cultural feature recognition based on single- or multi-image inputs through multiple-choice visual question answering, while the latter focuses on transforming traditional attire into modern designs through cultural element inheritance and modern context adaptation. Our evaluation shows that closed VLMs perform comparably to non-experts on visual cutural understanding but fall short by 10\% to human experts, while open VLMs lags further behind non-experts. For the transcreation task, multi-faceted human evaluation indicates that the best-performing model achieves a success rate of only 42\%. Our benchmark provides an essential testbed, revealing significant challenges in this new direction of temporal cultural understanding and creative adaptation.
- Abstract(参考訳): 文化は地理的にも時間的にも進化するリッチでダイナミックなドメインです。
しかしながら、視覚言語モデル(VLM)による文化的理解に関する既存の研究は主に地理的多様性を強調しており、しばしば重要な時間的次元を見下ろしている。
このギャップを埋めるために、専門家による新しいマルチモーダルデータセットであるHanfu-Benchを紹介します。
漢風(はんふ)は、古代中国の王朝にまたがる伝統的な衣服で、中国文化の時間的側面を反映した代表的な文化遺産であり、中国の現代社会では高い人気を保っている。
文化的な視覚的理解と文化的なイメージのトランスクリエーションという2つの中核的な課題から構成されており、前者の課題は、複数選択の視覚的質問応答を通じて、単一または複数画像の入力に基づく時間的文化的特徴認識を検証し、後者は、文化的要素の継承と近代的な文脈適応を通じて、伝統的な服装を近代的なデザインに転換することに焦点を当てている。
我々の評価では, 閉鎖型VLMは, 視覚的カットラル理解では非専門家と同等に機能するが, 人間の専門家では10倍に低下する一方, 開放型VLMは非専門家より遅れている。
トランスクリエーションタスクでは,多面的評価により,最高の性能モデルがわずか42.5%の成功率を達成することが示された。
私たちのベンチマークでは、時間的文化的理解と創造的適応という新たな方向性において、重要な課題が明らかになりました。
関連論文リスト
- RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。
我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。
質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文 参考訳(メタデータ) (2024-07-15T17:21:41Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。