論文の概要: Identifying Prompted Artist Names from Generated Images
- arxiv url: http://arxiv.org/abs/2507.18633v1
- Date: Thu, 24 Jul 2025 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.311851
- Title: Identifying Prompted Artist Names from Generated Images
- Title(参考訳): 生成した画像からプロンプトアーティストの名前を識別する
- Authors: Grace Su, Sheng-Yu Wang, Aaron Hertzmann, Eli Shechtman, Jun-Yan Zhu, Richard Zhang,
- Abstract要約: テキスト・ツー・イメージの一般的な使用法は、アーティストを明示的に命名することで画像を生成することである。
本稿では,プロンプトアーティスト認識のためのベンチマークを紹介する。
データセットには110人のアーティストをカバーする195万の画像が含まれている。
- 参考スコア(独自算出の注目度): 59.34482128911978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common and controversial use of text-to-image models is to generate pictures by explicitly naming artists, such as "in the style of Greg Rutkowski". We introduce a benchmark for prompted-artist recognition: predicting which artist names were invoked in the prompt from the image alone. The dataset contains 1.95M images covering 110 artists and spans four generalization settings: held-out artists, increasing prompt complexity, multiple-artist prompts, and different text-to-image models. We evaluate feature similarity baselines, contrastive style descriptors, data attribution methods, supervised classifiers, and few-shot prototypical networks. Generalization patterns vary: supervised and few-shot models excel on seen artists and complex prompts, whereas style descriptors transfer better when the artist's style is pronounced; multi-artist prompts remain the most challenging. Our benchmark reveals substantial headroom and provides a public testbed to advance the responsible moderation of text-to-image models. We release the dataset and benchmark to foster further research: https://graceduansu.github.io/IdentifyingPromptedArtists/
- Abstract(参考訳): テキスト・ツー・イメージの一般的な使用法は「グレッグ・ルトコフスキーのスタイルで」アーティストを明示的に命名することで画像を生成することである。
画像のみからのプロンプトでどのアーティスト名が呼び出されたかを予測する。
データセットには110人のアーティストをカバーする195万の画像が含まれており、ホールドアウトアーティスト、急激な複雑さの増加、複数アーティストプロンプト、異なるテキスト・ツー・イメージモデルという4つの一般化設定にまたがっている。
我々は,特徴類似性ベースライン,コントラスト型記述子,データ属性法,教師付き分類器,少数ショット型ネットワークを評価した。
一般化のパターンは様々である: 監督された、数発のモデルは、見たアーティストや複雑なプロンプトに優れ、一方、スタイル記述子は、アーティストのスタイルが発音されたときに、より良く転送される。
本ベンチマークでは,テキスト・ツー・イメージ・モデルの責任を負うモデレーションを推し進めるための公開テストベッドを提供する。
さらなる研究を促進するために、データセットとベンチマークをリリースします。
関連論文リスト
- ArtistAuditor: Auditing Artist Style Pirate in Text-to-Image Generation Models [61.55816738318699]
本稿では,テキスト・画像生成モデルにおける新しいデータ利用監査手法を提案する。
ArtistAuditorは、多彩なスタイルの表現を得るためにスタイル抽出器を使用し、アートワークをアーティストのスタイルのサンプリングとして扱う。
6つのモデルとデータセットの組み合わせによる実験結果は、ArtistAuditorが高いAUC値を達成可能であることを示している。
論文 参考訳(メタデータ) (2025-04-17T16:15:38Z) - Rethinking Artistic Copyright Infringements in the Era of Text-to-Image Generative Models [47.19481598385283]
ArtSavantは、ウィキアートの作品の参照データセットと比較することで、アーティストのユニークなスタイルを決定するツールである。
そこで我々は,3つの人気テキスト・画像生成モデルにまたがる芸術的スタイルの複製の頻度を定量的に把握するために,大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2024-04-11T17:59:43Z) - StyleForge: Enhancing Text-to-Image Synthesis for Any Artistic Styles with Dual Binding [7.291687946822539]
多様な芸術様式にまたがるパーソナライズされたテキスト・ツー・イメージ合成のための新しいアプローチであるSingle-StyleForgeを紹介した。
また、複数のトークンを部分的なスタイル属性に結合することで、画像の品質とテキストアライメントを向上させるMulti-StyleForgeを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:43:23Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - DiffMorph: Text-less Image Morphing with Diffusion Models [0.0]
verb|DiffMorph|は、テキストプロンプトを使わずに概念を混ぜたイメージを合成する。
verb|DiffMorph|は、アーティストが描いたスケッチを条件付けして初期画像を取得し、モルヒネ画像を生成する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルを用いて、各画像を忠実に再構成する。
論文 参考訳(メタデータ) (2024-01-01T12:42:32Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Measuring the Success of Diffusion Models at Imitating Human Artists [7.007492782620398]
モデルが特定のアーティストを模倣する能力を測定する方法を示す。
コントラスト言語-画像事前訓練(CLIP)エンコーダを用いてゼロショット方式で画像の分類を行う。
また,アーティストの作品のサンプルを,これらの模倣画像と高い統計的信頼性で一致させることができることを示す。
論文 参考訳(メタデータ) (2023-07-08T18:31:25Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - Name Your Style: An Arbitrary Artist-aware Image Style Transfer [25.791029572254597]
任意のスタイル転送を制御するために,高度な画像テキストエンコーダを利用するテキスト駆動型画像スタイル転送(TxST)を提案する。
画像テキストモデルからスタイル記述を効果的に抽出するための対照的なトレーニング戦略を導入する。
我々はまた、スタイルやコンテンツの特徴を融合するクロスアテンションを探求する、新しく効率的なアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-02-28T06:21:38Z) - Words as Art Materials: Generating Paintings with Sequential GANs [8.249180979158815]
大規模な分散データセット上での芸術画像の生成について検討する。
このデータセットには、形状、色、内容など、バリエーションのあるイメージが含まれている。
本稿では,逐次生成適応型ネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-07-08T19:17:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。