論文の概要: The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.11435v1
- Date: Fri, 14 Nov 2025 16:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.70682
- Title: The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models
- Title(参考訳): 文化記憶の持続性:拡散モデルにおけるマルチモーダル不連続性の調査
- Authors: Maria-Teresa De Rosa Palmini, Eva Cetinic,
- Abstract要約: 静的および動的画像にまたがる767のウィキデータ由来の文化的参照にまたがる5つの拡散モデルを評価する。
私たちの研究は、拡散モデルの価値は、それらが再現するものだけでなく、文化的な知識を変換し、再テクスチャ化する方法にも関係していることを明らかにします。
- 参考スコア(独自算出の注目度): 2.9793019246605676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our work addresses the ambiguity between generalization and memorization in text-to-image diffusion models, focusing on a specific case we term multimodal iconicity. This refers to instances where images and texts evoke culturally shared associations, such as when a title recalls a familiar artwork or film scene. While prior research on memorization and unlearning emphasizes forgetting, we examine what is remembered and how, focusing on the balance between recognizing cultural references and reproducing them. We introduce an evaluation framework that separates recognition, whether a model identifies a reference, from realization, how it depicts it through replication or reinterpretation, quantified through measures capturing both dimensions. By evaluating five diffusion models across 767 Wikidata-derived cultural references spanning static and dynamic imagery, we show that our framework distinguishes replication from transformation more effectively than existing similarity-based methods. To assess linguistic sensitivity, we conduct prompt perturbation experiments using synonym substitutions and literal image descriptions, finding that models often reproduce iconic visual structures even when textual cues are altered. Finally, our analysis shows that cultural alignment correlates not only with training data frequency, but also textual uniqueness, reference popularity, and creation date. Our work reveals that the value of diffusion models lies not only in what they reproduce but in how they transform and recontextualize cultural knowledge, advancing evaluation beyond simple text-image matching toward richer contextual understanding.
- Abstract(参考訳): 本研究は,テキスト・画像拡散モデルにおける一般化と記憶のあいまいさに対処し,マルチモーダル・イコニシティ(multimodal iconicity)と呼ぶ特定のケースに焦点を当てた。
タイトルが親しみやすい美術作品や映画シーンを思い出すなど、文化的に共有された結社をイメージやテキストが引き起こす場合を指す。
記憶化と未学習の先行研究では忘れることが重視されていたが,文化参照の認識と再生のバランスに着目して,何を記憶するか,どのように記憶するかを検討する。
本稿では,モデルが参照を識別するかどうか,その認識を再現や再解釈を通じてどのように表現するかを,両次元の計測によって定量化する評価フレームワークを提案する。
静的および動的画像にまたがる767 Wikidata由来の文化参照の5つの拡散モデルを評価することにより,我々のフレームワークは,既存の類似性に基づく手法よりも効率的に複製と変換を区別できることを示す。
言語的感受性を評価するため,同義語置換とリテラル画像記述を用いた即時摂動実験を行い,テキストの手がかりが変化しても,モデルがしばしば象徴的な視覚構造を再現することを発見した。
最後に, 文化的アライメントは, トレーニングデータ頻度だけでなく, テキストの独特性, 参照人気, 作成日と相関していることを示す。
我々の研究は、拡散モデルの価値は、それらが再現するものだけではなく、文化的な知識を変換し、再テクスチャ化する方法にも当てはまり、より豊かな文脈理解に向けて単純なテキストイメージマッチングを超えて評価を進めることを明らかにする。
関連論文リスト
- Contrasting Cognitive Styles in Vision-Language Models: Holistic Attention in Japanese Versus Analytical Focus in English [4.8310710966636545]
視覚言語モデル(VLM)が日本語と英語の異なる言語で主に訓練されているかを検討する。
以上の結果から,VLMは言語の構造的特性だけでなく,学習データに埋め込まれた文化行動も再現し,文化認知が暗黙的にモデル出力を形作る可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-01T11:56:45Z) - Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。
以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-06-05T16:10:47Z) - Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文 参考訳(メタデータ) (2025-02-13T03:05:42Z) - An Inversion-based Measure of Memorization for Diffusion Models [37.9715620828388]
拡散モデルは、データの記憶をトレーニングし、著作権侵害やプライバシー侵害に関する懸念を提起する。
InvMMは,画像の複製を考慮に入れた感度潜時雑音分布の反転に基づく,インバージョンに基づく暗黙化尺度である。
InvMMはサンプル間で共振可能であり、正反対の立場から記憶の真の範囲を明らかにし、記憶がメンバーシップとどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-05-09T15:32:00Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Composition and Deformance: Measuring Imageability with a Text-to-Image
Model [8.008504325316327]
生成した画像を用いて、単一英語の単語と接続されたテキストの可視性を測定する手法を提案する。
提案手法と個人単語の人的判断との間には高い相関関係が認められた。
本研究は,テキスト・ツー・イメージ・モデルにおけるモデルトレーニングの可能性と,構成性の研究に与える影響について論じる。
論文 参考訳(メタデータ) (2023-06-05T18:22:23Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。