Fugu-MT 論文翻訳(概要): CIC: A framework for Culturally-aware Image Captioning

論文の概要: CIC: A framework for Culturally-aware Image Captioning

arxiv url: http://arxiv.org/abs/2402.05374v1
Date: Thu, 8 Feb 2024 03:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 16:46:47.946349
Title: CIC: A framework for Culturally-aware Image Captioning
Title（参考訳）: CIC: 文化的イメージキャプションのためのフレームワーク
Authors: Youngsik Yun and Jihie Kim
Abstract要約: そこで我々は,文化を表す画像の視覚的要素から抽出された文化的要素をキャプションとして記述する新しい枠組み,textbfCulturally-aware Image Captioning (CIC)を提案する。視覚的モダリティとLarge Language Models(LLM)を適切なプロンプトで組み合わせた手法に着想を得て,この枠組みは画像から文化カテゴリーに基づく質問を生成する。 4つの異なる文化集団から45人の被験者を対象に行った人的評価から,提案する枠組みがより文化的に記述的なキャプションを生成することが示唆された。
参考スコア（独自算出の注目度）: 3.03134738398979
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image Captioning generates descriptive sentences from images using Vision-Language Pre-trained models (VLPs) such as BLIP, which has improved greatly. However, current methods lack the generation of detailed descriptive captions for the cultural elements depicted in the images, such as the traditional clothing worn by people from Asian cultural groups. In this paper, we propose a new framework, \textbf{Culturally-aware Image Captioning (CIC)}, that generates captions and describes cultural elements extracted from cultural visual elements in images representing cultures. Inspired by methods combining visual modality and Large Language Models (LLMs) through appropriate prompts, our framework (1) generates questions based on cultural categories from images, (2) extracts cultural visual elements from Visual Question Answering (VQA) using generated questions, and (3) generates culturally-aware captions using LLMs with the prompts. Our human evaluation conducted on 45 participants from 4 different cultural groups with a high understanding of the corresponding culture shows that our proposed framework generates more culturally descriptive captions when compared to the image captioning baseline based on VLPs. Our code and dataset will be made publicly available upon acceptance.
Abstract（参考訳）: Image Captioningは、BLIPのようなVLP(Vision-Language Pre-trained Model)を用いて画像から記述文を生成する。しかし、現在の手法では、アジアの文化集団が着用する伝統的な衣服など、画像に描かれた文化的要素の詳細な説明的なキャプションが生成されていない。本稿では,文化を表すイメージにおいて,文化的な視覚的要素から抽出された文化的要素をキャプションとして表現し,表現する新しい枠組みである「CIC」を提案する。視覚的モダリティとLarge Language Models(LLM)を適切なプロンプトで組み合わせた手法に着想を得て,(1)画像から文化的カテゴリに基づく質問,(2)視覚的質問回答(VQA)から文化的な視覚要素を抽出し,(3)LLMを用いて文化的に認識されたキャプションを生成する。本研究は,4つの異なる文化グループから45名を対象に,vlpに基づく画像キャプションベースラインと比較して,提案手法がより文化的に記述的なキャプションを生成することを示す。私たちのコードとデータセットは、受け入れ次第公開されます。

関連論文リスト

CultureCLIP: Empowering CLIP with Cultural Awareness through Synthetic Images and Contextualized Captions [4.149285362505653]
事前訓練された視覚言語モデル(VLM)は、一般的なマルチモーダル理解において優れているが、しばしばニュアンス付き、文脈に依存した視覚的手がかりを捉えるのに苦労する。我々は,人工文化データセットCulTwinを構築するために,オープンソースのVLMとテキスト・ツー・イメージモデルを活用したデータキュレーションパイプラインを設計する。 CulTwin上でCLIPを微調整し,文化的な概念を文脈的に拡張されたキャプションや合成画像と整合させるCuctureCLIPを開発する。
論文参考訳（メタデータ） (2025-07-08T17:38:56Z)
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。 RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文参考訳（メタデータ） (2025-05-20T14:57:16Z)
Culture-TRIP: Culturally-Aware Text-to-Image Generation with Iterative Prompt Refinment [2.089922606370409]
反復的プロンプトリファインメント(Culture-TRIP)を用いた文化的テキスト・画像生成手法を提案する。提案手法は, カルチャー名詞に関連する文化的文脈と視覚的詳細を抽出する。一連の文化的基準と大きな言語モデルに基づいて、反復的にプロンプトを洗練・評価する。
論文参考訳（メタデータ） (2025-02-24T06:56:56Z)
Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文参考訳（メタデータ） (2025-02-13T03:05:42Z)
CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。 CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文参考訳（メタデータ） (2025-01-02T14:42:37Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。我々は,5大陸11カ国の文化を表わす質問毎の回答が1～5である2,378枚の画像検索ペアのコレクションをキュレートした。質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文参考訳（メタデータ） (2024-07-15T17:21:41Z)
See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文参考訳（メタデータ） (2024-06-17T15:49:51Z)
Creating a Lens of Chinese Culture: A Multimodal Dataset for Chinese Pun Rebus Art Understanding [28.490495656348187]
我々は、伝統的な中国文化に根ざした芸術理解のために、パン・レバス・アート・データセットを提供する。視覚的要素の健全な識別、シンボル的な意味の要素のマッチング、伝達されたメッセージの説明の3つの主要なタスクに焦点をあてる。我々の評価は、最先端のVLMがこれらの課題に苦しむことを示し、しばしば偏見と幻覚的な説明を提供する。
論文参考訳（メタデータ） (2024-06-14T16:52:00Z)
How Culturally Aware are Vision-Language Models? [0.8437187555622164]
神話、民俗舞踊、文化記号、シンボルなどの民俗ジャンルからのイメージは、あらゆる文化にとって不可欠である。本研究は、これらの画像中の文化的特定情報を特定するために、4つの一般的な視覚言語モデルの性能を比較した。画像キャプションにおける文化意識の度合いを計測する新しい評価指標であるCAS(Cultural Awareness Score)を提案する。
論文参考訳（メタデータ） (2024-05-24T04:45:14Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
CultureBank: An Online Community-Driven Knowledge Base Towards Culturally Aware Language Technologies [53.2331634010413]
CultureBankは、ユーザの自己物語に基づいて構築された知識ベースである。 TikTokから12K、Redditから1Kの文化的記述が含まれている。今後の文化的に意識された言語技術に対する推奨事項を提示する。
論文参考訳（メタデータ） (2024-04-23T17:16:08Z)
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文参考訳（メタデータ） (2024-04-16T00:50:43Z)
An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文参考訳（メタデータ） (2024-04-01T17:08:50Z)
Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of Text-To-Image Models [32.99865895211158]
テキスト・トゥ・イメージ(TTI)モデルに埋め込まれた文化的知覚を,3層にまたがる文化を特徴付けることによって探求する。本稿では,CLIP空間を用いた本質的な評価を含む総合的な評価手法を提案する。我々の研究を促進するために、CulText2Iデータセットを導入しました。
論文参考訳（メタデータ） (2023-10-03T10:13:36Z)
On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-06T13:17:55Z)
Culture-to-Culture Image Translation and User Evaluation [0.0]
本稿では,文化的な特徴の筆跡を変える過程として定義するイメージ「文化化」の概念を紹介する。我々は、最先端のジェネレーティブ・アドバイサル・ネットワークに基づいて、オブジェクトのイメージをソースからターゲットの文化的領域に翻訳するためのパイプラインを定義した。我々は,異なる文化ドメインに属する画像がイタリアの参加者に与える影響について,4つの仮説を検証するために,オンラインアンケートを通じてデータを収集した。
論文参考訳（メタデータ） (2022-01-05T12:10:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。