論文の概要: The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2507.23313v1
- Date: Thu, 31 Jul 2025 07:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.229658
- Title: The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models
- Title(参考訳): レンブラントのカウ -テキスト・画像モデルにおける芸術的プロンプト解釈の分析-
- Authors: Alfio Ferrara, Sergio Picascia, Elisabetta Rocchetti,
- Abstract要約: テキストと画像の拡散モデルが、アートワークを生成する際に、コンテンツやスタイルのコンセプトをエンコードする方法について検討する。
以上の結果から,要求された芸術的プロンプトやスタイルによって,内容的分離の程度は様々であった。
これらの知見は、大規模な生成モデルが、明示的な監督なしに複雑な芸術概念を内部的にどのように表現するかの理解に寄与する。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have demonstrated remarkable capabilities in generating artistic content by learning from billions of images, including popular artworks. However, the fundamental question of how these models internally represent concepts, such as content and style in paintings, remains unexplored. Traditional computer vision assumes content and style are orthogonal, but diffusion models receive no explicit guidance about this distinction during training. In this work, we investigate how transformer-based text-to-image diffusion models encode content and style concepts when generating artworks. We leverage cross-attention heatmaps to attribute pixels in generated images to specific prompt tokens, enabling us to isolate image regions influenced by content-describing versus style-describing tokens. Our findings reveal that diffusion models demonstrate varying degrees of content-style separation depending on the specific artistic prompt and style requested. In many cases, content tokens primarily influence object-related regions while style tokens affect background and texture areas, suggesting an emergent understanding of the content-style distinction. These insights contribute to our understanding of how large-scale generative models internally represent complex artistic concepts without explicit supervision. We share the code and dataset, together with an exploratory tool for visualizing attention maps at https://github.com/umilISLab/artistic-prompt-interpretation.
- Abstract(参考訳): テキストと画像の拡散モデルは、人気のアートワークを含む何十億もの画像から学習することで、芸術的コンテンツを生成できる顕著な能力を示してきた。
しかし、これらのモデルがどのようにして絵画における内容や様式などの概念を内在的に表現するかという根本的な問題は未解明のままである。
従来のコンピュータビジョンでは、内容とスタイルは直交するが、拡散モデルはトレーニング中にこの区別について明確なガイダンスを受け取らない。
本研究では,トランスフォーマーを用いたテキスト・画像拡散モデルを用いて,アートワーク生成時のコンテンツやスタイル概念をエンコードする方法について検討する。
生成した画像の画素を特定のプロンプトトークンに属性付けるために、クロスアテンション・ヒートマップを活用し、コンテンツ記述とスタイル記述のトークンの影響を受けやすい画像領域を分離する。
以上の結果から,特定の芸術的プロンプトやスタイルの要求に応じて,拡散モデルがコンテンツスタイルの分離の程度が異なることが明らかとなった。
多くの場合、コンテンツトークンは主にオブジェクト関連の領域に影響を与えるが、スタイルトークンは背景やテクスチャの領域に影響を与える。
これらの知見は、大規模な生成モデルが、明示的な監督なしに複雑な芸術概念を内部的にどのように表現するかの理解に寄与する。
コードとデータセットと、https://github.com/umilISLab/artistic-prompt-prepretation.comでアテンションマップを視覚化するための探索ツールを共有します。
関連論文リスト
- WikiStyle+: A Multimodal Approach to Content-Style Representation Disentanglement for Artistic Image Stylization [0.0]
芸術的なイメージスタイリングは、テキストや画像が提供するコンテンツをターゲットスタイルでレンダリングすることを目的としている。
コンテンツとスタイルのゆがみの現在の手法は、画像の監督に依存している。
本稿では,芸術的イメージスタイリングのためのコンテンツスタイルのゆがみに対するマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-19T03:42:58Z) - Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion [73.08710648258985]
レイアウト、視点、形状、意味といった重要な絵の属性は、しばしばスタイル転送によって伝達され、表現されない。
大規模な事前訓練された画像生成モデルは、大量の高品質な画像を合成できることを実証している。
我々の主要なアイデアは、スタイルを現実の世界に移すのではなく、多モーダルな意味情報を合成ガイドとしてアートに組み込むことである。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。