論文の概要: Creating a Lens of Chinese Culture: A Multimodal Dataset for Chinese Pun Rebus Art Understanding
- arxiv url: http://arxiv.org/abs/2406.10318v1
- Date: Fri, 14 Jun 2024 16:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:01:54.706747
- Title: Creating a Lens of Chinese Culture: A Multimodal Dataset for Chinese Pun Rebus Art Understanding
- Title(参考訳): 中国文化のレンズを作る:中国のパン・リバス・アート理解のためのマルチモーダルデータセット
- Authors: Tuo Zhang, Tiantian Feng, Yibin Ni, Mengqin Cao, Ruying Liu, Katharine Butler, Yanjun Weng, Mi Zhang, Shrikanth S. Narayanan, Salman Avestimehr,
- Abstract要約: 我々は、伝統的な中国文化に根ざした芸術理解のために、パン・レバス・アート・データセットを提供する。
視覚的要素の健全な識別、シンボル的な意味の要素のマッチング、伝達されたメッセージの説明の3つの主要なタスクに焦点をあてる。
我々の評価は、最先端のVLMがこれらの課題に苦しむことを示し、しばしば偏見と幻覚的な説明を提供する。
- 参考スコア(独自算出の注目度): 28.490495656348187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) have demonstrated remarkable abilities in understanding everyday content. However, their performance in the domain of art, particularly culturally rich art forms, remains less explored. As a pearl of human wisdom and creativity, art encapsulates complex cultural narratives and symbolism. In this paper, we offer the Pun Rebus Art Dataset, a multimodal dataset for art understanding deeply rooted in traditional Chinese culture. We focus on three primary tasks: identifying salient visual elements, matching elements with their symbolic meanings, and explanations for the conveyed messages. Our evaluation reveals that state-of-the-art VLMs struggle with these tasks, often providing biased and hallucinated explanations and showing limited improvement through in-context learning. By releasing the Pun Rebus Art Dataset, we aim to facilitate the development of VLMs that can better understand and interpret culturally specific content, promoting greater inclusiveness beyond English-based corpora.
- Abstract(参考訳): 視覚言語モデル(VLM)は、日常的な内容を理解する際、顕著な能力を示した。
しかし、芸術分野、特に文化的に豊かな芸術形態における彼らの業績は、いまだに調査されていない。
人間の知恵と創造性の真珠として、芸術は複雑な文化的物語と象徴をカプセル化している。
本稿では,中国伝統文化に根ざした芸術理解のためのマルチモーダルデータセットであるPun Rebus Art Datasetを提案する。
視覚的要素の健全な識別、シンボル的な意味の要素のマッチング、伝達されたメッセージの説明の3つの主要なタスクに焦点をあてる。
我々の評価は、最先端のVLMがこれらの課題に苦しむことを示し、しばしばバイアス付きで幻覚的な説明を提供し、文脈内学習による限られた改善を示す。
Pun Rebus Art Datasetをリリースすることにより、文化的な特定のコンテンツをよりよく理解し、解釈し、英語のコーパスを超える包括性を促進できるVLMの開発を促進することを目指している。
関連論文リスト
- Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文 参考訳(メタデータ) (2025-02-13T03:05:42Z) - CognArtive: Large Language Models for Automating Art Analysis and Decoding Aesthetic Elements [1.0579965347526206]
芸術は普遍言語であり、様々な方法で解釈できる。
大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) の可用性は,これらのモデルがアートワークの評価と解釈にどのように使用できるのかという疑問を提起する。
論文 参考訳(メタデータ) (2025-02-04T18:08:23Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Understanding the World's Museums through Vision-Language Reasoning [49.976422699906706]
博物館は、様々なエポック、文明、地域にまたがる文化遺産や歴史的遺物の重要な保管物として機能している。
我々は、世界中の展示のために、標準的な博物館カタログフォーマットで65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し、キュレートする。
BLIPモデルと視覚言語対応の埋め込みを持つが、大きな言語モデルの表現力に欠ける2つのVLMと、視覚言語推論能力に富んだ強力な命令チューニング LLaVA モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-02T10:54:31Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - How Culturally Aware are Vision-Language Models? [0.8437187555622164]
神話、民俗舞踊、文化記号、シンボルなどの民俗ジャンルからのイメージは、あらゆる文化にとって不可欠である。
本研究は、これらの画像中の文化的特定情報を特定するために、4つの一般的な視覚言語モデルの性能を比較した。
画像キャプションにおける文化意識の度合いを計測する新しい評価指標であるCAS(Culture Awareness Score)を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:45:14Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - CIC: A Framework for Culturally-Aware Image Captioning [2.565964707090901]
本稿では,文化を表すイメージの視覚的要素から抽出された文化要素をキャプションとして表現し,表現する新しい枠組みであるCICを提案する。
視覚的モダリティとLarge Language Models(LLM)を組み合わせた手法に着想を得て,画像から文化カテゴリーに基づく質問を生成する。
4つの異なる文化集団から45人の被験者を対象に行った人的評価から,提案する枠組みがより文化的に記述的なキャプションを生成することが示唆された。
論文 参考訳(メタデータ) (2024-02-08T03:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。