論文の概要: Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.17064v1
- Date: Sun, 18 May 2025 13:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.515943
- Title: Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models
- Title(参考訳): 合成史:拡散モデルにおける過去の視覚的表現の評価
- Authors: Maria-Teresa De Rosa Palmini, Eva Cetinic,
- Abstract要約: HistVisデータセットは、3つの最先端拡散モデルによって生成される3万の合成画像のキュレートされたコレクションである。
生成した画像は3つの重要な側面 – 暗黙のスティリスティック・アソシエーション, ヒストリシスタンス, デモグラフィック・リ表現 – で評価した。
歴史的にテーマ化された画像の体系的不正確さは,TTIが非定型的スタイルを取り入れた過去のステレオタイプをしばしばモデル化していることから明らかとなった。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Text-to-Image (TTI) diffusion models become increasingly influential in content creation, growing attention is being directed toward their societal and cultural implications. While prior research has primarily examined demographic and cultural biases, the ability of these models to accurately represent historical contexts remains largely underexplored. In this work, we present a systematic and reproducible methodology for evaluating how TTI systems depict different historical periods. For this purpose, we introduce the HistVis dataset, a curated collection of 30,000 synthetic images generated by three state-of-the-art diffusion models using carefully designed prompts depicting universal human activities across different historical periods. We evaluate generated imagery across three key aspects: (1) Implicit Stylistic Associations: examining default visual styles associated with specific eras; (2) Historical Consistency: identifying anachronisms such as modern artifacts in pre-modern contexts; and (3) Demographic Representation: comparing generated racial and gender distributions against historically plausible baselines. Our findings reveal systematic inaccuracies in historically themed generated imagery, as TTI models frequently stereotype past eras by incorporating unstated stylistic cues, introduce anachronisms, and fail to reflect plausible demographic patterns. By offering a scalable methodology and benchmark for assessing historical representation in generated imagery, this work provides an initial step toward building more historically accurate and culturally aligned TTI models.
- Abstract(参考訳): テキスト・トゥ・イメージ(TTI)拡散モデルがコンテンツ制作に影響を及ぼすにつれ、その社会的・文化的意味に注目が向けられている。
これまでの研究では、主に人口統計学と文化の偏見を調査してきたが、これらのモデルが歴史的文脈を正確に表現する能力は、いまだに未解明のままである。
本研究では,TTIシステムがどのように異なる時代を描いているかを評価するための,体系的で再現可能な手法を提案する。
この目的のために,3つの最先端拡散モデルによって生成された3万枚の合成画像の収集したHistVisデータセットを紹介した。
筆者らは,(1)特定時代に関連する既定の視覚的スタイルを検査するインシシット・スティリスティック・アソシエーション,(2)近代以前の文脈における近代的アーティファクトのようなアナクロニズムを識別するヒストリカル・コンシステンシー,(3)デモグラフィック・表現:生成した人種的・ジェンダー的分布と歴史的に有望なベースラインと比較するデモグラフィック・リ表現,の3つの重要な側面について評価した。
歴史的にテーマ化された画像の体系的不正確さは,TTIが非定型的スタイリスティックな手がかりを取り入れ,アナクロニズムを導入し,人口動態を反映できないことによって,過去のステレオタイプをしばしばモデル化しているためである。
生成された画像の歴史的表現を評価するためのスケーラブルな方法論とベンチマークを提供することで、この研究はより歴史的に正確で文化的に整合したTTIモデルを構築するための最初のステップを提供する。
関連論文リスト
- Text-to-Image Models and Their Representation of People from Different Nationalities Engaging in Activities [2.7195102129095003]
1つのシナリオでは、ほとんどの画像、もう1つのシナリオは、伝統的な服装を身に着けている個人を描いている。
この表現パターンと特定国に関連する地域との間に統計的に有意な関係が認められた。
これは、この問題が特定の地域、特に中東と北アフリカ、サハラ以南のアフリカに不均等に影響を及ぼしていることを示している。
論文 参考訳(メタデータ) (2025-04-08T05:37:06Z) - Exploring Bias in over 100 Text-to-Image Generative Models [49.60774626839712]
本稿では,Hugging Faceのようなオープンプラットフォームによるモデルの利用率向上に着目し,テキストから画像への生成モデルにおけるバイアスの傾向について検討する。
我々は, (i) 分布バイアス, (ii) 生成幻覚, (iii) 生成ミスレートの3つの主要な次元にまたがるバイアスを評価する。
以上の結果から, 芸術的モデルとスタイル変換モデルに有意なバイアスが生じる一方で, より広範なトレーニング分布の恩恵を受ける基礎モデルでは, 徐々にバイアスが減っていることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T03:40:44Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - The Factuality Tax of Diversity-Intervened Text-to-Image Generation: Benchmark and Fact-Augmented Intervention [61.80236015147771]
我々は多様性の介入とT2Iモデルにおける人口統計学的事実性とのトレードオフを定量化する。
DoFaiRの実験では、多様性指向の指示によって、性別や人種の異なる集団の数が増加することが明らかになった。
本研究では,歴史における世代ごとのジェンダーや人種構成について,言語化された事実情報を反映したFact-Augmented Intervention (FAI)を提案する。
論文 参考訳(メタデータ) (2024-06-29T09:09:42Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。