論文の概要: Diffusion Models Through a Global Lens: Are They Culturally Inclusive?
- arxiv url: http://arxiv.org/abs/2502.08914v1
- Date: Thu, 13 Feb 2025 03:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:05.054591
- Title: Diffusion Models Through a Global Lens: Are They Culturally Inclusive?
- Title(参考訳): グローバルレンズによる拡散モデル:それらは文化的に包括的か?
- Authors: Zahra Bayramli, Ayhan Suleymanzade, Na Min An, Huzama Ahmad, Eunsu Kim, Junyeong Park, James Thorne, Alice Oh,
- Abstract要約: 我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
- 参考スコア(独自算出の注目度): 15.991121392458748
- License:
- Abstract: Text-to-image diffusion models have recently enabled the creation of visually compelling, detailed images from textual prompts. However, their ability to accurately represent various cultural nuances remains an open question. In our work, we introduce CultDiff benchmark, evaluating state-of-the-art diffusion models whether they can generate culturally specific images spanning ten countries. We show that these models often fail to generate cultural artifacts in architecture, clothing, and food, especially for underrepresented country regions, by conducting a fine-grained analysis of different similarity aspects, revealing significant disparities in cultural relevance, description fidelity, and realism compared to real-world reference images. With the collected human evaluations, we develop a neural-based image-image similarity metric, namely, CultDiff-S, to predict human judgment on real and generated images with cultural artifacts. Our work highlights the need for more inclusive generative AI systems and equitable dataset representation over a wide range of cultures.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルにより、テキスト・プロンプトから視覚的に魅力的な詳細な画像が作成できるようになった。
しかし、様々な文化的ニュアンスを正確に表現する能力は未解決のままである。
本研究では,10ヶ国にまたがる文化固有の画像を生成することができるか,最先端の拡散モデルを評価するCultDiffベンチマークを提案する。
これらのモデルは, 建築, 衣服, 食品の文化的アーティファクトの生成に失敗することが多く, 実際の参照画像と比較して, 文化的関連性, 説明の忠実性, 現実性に有意な相違があることを明らかにすることによって, 異なる類似性の側面のきめ細かい分析を行うことによって, 過小評価された地域において, 建築, 衣服, 食品の文化的アーティファクトの生成に失敗することが多い。
人的評価の収集により、カルトディフ-Sと呼ばれるニューラルネットワークによる画像画像類似度測定法を開発し、文化的なアーティファクトを用いた実画像と生成画像の人間の判断を予測する。
私たちの研究は、より包括的な生成AIシステムと、幅広い文化にまたがる適切なデータセット表現の必要性を強調しています。
関連論文リスト
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。
我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。
言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文 参考訳(メタデータ) (2025-01-02T04:57:50Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - How Culturally Aware are Vision-Language Models? [0.8437187555622164]
神話、民俗舞踊、文化記号、シンボルなどの民俗ジャンルからのイメージは、あらゆる文化にとって不可欠である。
本研究は、これらの画像中の文化的特定情報を特定するために、4つの一般的な視覚言語モデルの性能を比較した。
画像キャプションにおける文化意識の度合いを計測する新しい評価指標であるCAS(Culture Awareness Score)を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:45:14Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho
Heritage [0.0]
本稿では, 地域文化概念, 歴史人物, 絶滅危惧種の表現における潜在拡散モデル (LDM) の可能性について考察する。
我々の目標は、生産モデルが地域の文化的・歴史的アイデンティティを捉え保存するのにどう役立つか、より広い理解に貢献することである。
論文 参考訳(メタデータ) (2024-01-10T19:34:52Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Culture-to-Culture Image Translation and User Evaluation [0.0]
本稿では,文化的な特徴の筆跡を変える過程として定義するイメージ「文化化」の概念を紹介する。
我々は、最先端のジェネレーティブ・アドバイサル・ネットワークに基づいて、オブジェクトのイメージをソースからターゲットの文化的領域に翻訳するためのパイプラインを定義した。
我々は,異なる文化ドメインに属する画像がイタリアの参加者に与える影響について,4つの仮説を検証するために,オンラインアンケートを通じてデータを収集した。
論文 参考訳(メタデータ) (2022-01-05T12:10:42Z) - From Culture to Clothing: Discovering the World Events Behind A Century
of Fashion Images [100.20851232528925]
本稿では,着る衣服に影響を及ぼす特定の文化的要因を特定するための,データ駆動型アプローチを提案する。
私たちの仕事は、計算的、スケーラブルで、簡単にリフレッシュ可能なアプローチによる、カルチャーと衣服のリンクに向けた第一歩です。
論文 参考訳(メタデータ) (2021-02-02T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。