論文の概要: CultureCLIP: Empowering CLIP with Cultural Awareness through Synthetic Images and Contextualized Captions
- arxiv url: http://arxiv.org/abs/2507.06210v1
- Date: Tue, 08 Jul 2025 17:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.373599
- Title: CultureCLIP: Empowering CLIP with Cultural Awareness through Synthetic Images and Contextualized Captions
- Title(参考訳): CultureCLIP: 合成画像とコンテクスト化キャプションによるCLIPの文化的認識の強化
- Authors: Yuchen Huang, Zhiyuan Fan, Zhitao He, Sandeep Polisetty, Wenyan Li, Yi R. Fung,
- Abstract要約: 事前学習された視覚言語モデル(VLM)は、マルチモーダル理解において優れているが、文脈的に関係のあるきめ細かい視覚的特徴に苦慮している。
文化的な概念と文脈的に強化されたキャプションと合成画像とを、カスタマイズされたコントラスト学習によって整合させる文化CLIPを作成する。
CultureCLIPはベースCLIPよりも優れており、特定のタスクにおけるきめ細かい概念認識が5.49%向上している。
- 参考スコア(独自算出の注目度): 4.149285362505653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained vision-language models (VLMs) such as CLIP excel in multimodal understanding but struggle with contextually relevant fine-grained visual features, making it difficult to distinguish visually similar yet culturally distinct concepts. This limitation stems from the scarcity of high-quality culture-specific datasets, the lack of integrated contextual knowledge, and the absence of hard negatives highlighting subtle distinctions. To address these challenges, we first design a data curation pipeline that leverages open-sourced VLMs and text-to-image diffusion models to construct CulTwin, a synthetic cultural dataset. This dataset consists of paired concept-caption-image triplets, where concepts visually resemble each other but represent different cultural contexts. Then, we fine-tune CLIP on CulTwin to create CultureCLIP, which aligns cultural concepts with contextually enhanced captions and synthetic images through customized contrastive learning, enabling finer cultural differentiation while preserving generalization capabilities. Experiments on culturally relevant benchmarks show that CultureCLIP outperforms the base CLIP, achieving up to a notable 5.49% improvement in fine-grained concept recognition on certain tasks, while preserving CLIP's original generalization ability, validating the effectiveness of our data synthesis and VLM backbone training paradigm in capturing subtle cultural distinctions.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデル(VLM)は、マルチモーダル理解において優れているが、文脈的に関係のある微粒な視覚的特徴に苦慮しているため、視覚的に類似しているが文化的に異なる概念を区別することは困難である。
この制限は、高品質な文化固有のデータセットの不足、統合された文脈知識の欠如、微妙な区別を浮き彫りにするハードネガティブの欠如に起因している。
これらの課題に対処するために、我々はまず、オープンソースのVLMとテキスト間拡散モデルを活用したデータキュレーションパイプラインを設計し、合成文化データセットであるCulTwinを構築する。
このデータセットは、概念を視覚的に類似させるが、異なる文化的文脈を表現する、ペアのコンセプトキャプションイメージ三脚で構成されている。
CulTwinでCLIPを微調整し、CulTwinでCLIPを作成し、文化概念を文脈的に強化されたキャプションと合成画像に整合させ、より微妙な文化分化を可能とし、一般化能力を保ちながら、より微妙な文化分化を可能にする。
文化的に関連のあるベンチマーク実験により、CLIPはベースとなるCLIPよりも優れており、特定のタスクにおけるきめ細かい概念認識が5.49%向上する一方で、CLIPの本来の一般化能力を保ちながら、微妙な文化的区別を捉える上でのデータ合成とVLMバックボーントレーニングのパラダイムの有効性を検証している。
関連論文リスト
- CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - How Well Do LLMs Identify Cultural Unity in Diversity? [12.982460687543952]
本稿では,概念の文化的統一性を理解するために,デコーダのみの大規模言語モデル(LLM)を評価するためのベンチマークデータセットを提案する。
CUNITは、10か国で285の伝統的な文化的概念に基づいて構築された1,425の評価例で構成されている。
高い関連性を持つ異文化のコンセプトペアを識別するLLMの能力を評価するために,コントラストマッチングタスクを設計する。
論文 参考訳(メタデータ) (2024-08-09T14:45:22Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。