論文の概要: CAP: Evaluation of Persuasive and Creative Image Generation
- arxiv url: http://arxiv.org/abs/2412.10426v1
- Date: Tue, 10 Dec 2024 19:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:11.884227
- Title: CAP: Evaluation of Persuasive and Creative Image Generation
- Title(参考訳): CAP: Persuasive and Creative Image Generation の評価
- Authors: Aysan Aghazadeh, Adriana Kovashka,
- Abstract要約: 本稿では,生成した広告画像の創造性,適応性,説得性を評価するための3つの評価指標を提案する。
その結果,入力テキストが暗黙的メッセージである場合,現在のテキスト・ツー・イメージモデルは創造性,説得性,アライメントに苦慮していることがわかった。
我々は、より整合性があり、より創造的で、より説得力のある画像を生成する上で、T2Iモデルの能力を高めるためのシンプルで効果的なアプローチを導入します。
- 参考スコア(独自算出の注目度): 28.49695567630899
- License:
- Abstract: We address the task of advertisement image generation and introduce three evaluation metrics to assess Creativity, prompt Alignment, and Persuasiveness (CAP) in generated advertisement images. Despite recent advancements in Text-to-Image (T2I) generation and their performance in generating high-quality images for explicit descriptions, evaluating these models remains challenging. Existing evaluation methods focus largely on assessing alignment with explicit, detailed descriptions, but evaluating alignment with visually implicit prompts remains an open problem. Additionally, creativity and persuasiveness are essential qualities that enhance the effectiveness of advertisement images, yet are seldom measured. To address this, we propose three novel metrics for evaluating the creativity, alignment, and persuasiveness of generated images. Our findings reveal that current T2I models struggle with creativity, persuasiveness, and alignment when the input text is implicit messages. We further introduce a simple yet effective approach to enhance T2I models' capabilities in producing images that are better aligned, more creative, and more persuasive.
- Abstract(参考訳): 広告画像生成の課題に対処し、生成した広告画像の創造性、適応性、説得性(CAP)を評価するための3つの評価指標を導入する。
近年のテキスト・ツー・イメージ(T2I)生成の進歩と、明示的な記述のための高品質な画像の生成性能にもかかわらず、これらのモデルの評価は依然として困難である。
既存の評価手法は主に明示的で詳細な記述によるアライメントの評価に重点を置いているが、視覚的に暗黙的なプロンプトによるアライメントの評価は未解決の問題である。
さらに、創造性と説得性は広告画像の有効性を高める重要な要素であるが、測定されることはめったにない。
そこで本研究では,生成画像の創造性,アライメント,説得性を評価するための3つの新しい指標を提案する。
その結果,入力テキストが暗黙的メッセージである場合,現在のT2Iモデルは創造性,説得性,アライメントに苦慮していることがわかった。
さらに、より整合性があり、より創造的で、より説得力のある画像を生成する上で、T2Iモデルの能力を高めるためのシンプルで効果的なアプローチを導入します。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - DiffChat: Learning to Chat with Text-to-Image Synthesis Models for
Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。
生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-08T02:24:27Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文 参考訳(メタデータ) (2023-11-27T01:24:31Z) - TIAM -- A Metric for Evaluating Alignment in Text-to-Image Generation [2.6890293832784566]
本稿では,プロンプトテンプレートに基づく新しいメトリクスを提案し,プロンプトで指定された内容と対応する生成された画像とのアライメントについて検討する。
我々のアプローチで得られた別の興味深い結果は、画像の品質が、画像のシードとして使われる雑音によって大きく変化することである。
論文 参考訳(メタデータ) (2023-07-11T09:23:05Z) - Transferring Visual Attributes from Natural Language to Verified Image
Generation [4.834625048634076]
本稿では,自然なプロンプトを視覚的プロンプトに変換する自然言語・検証画像生成手法(NL2VI)を提案する。
T2Iモデルは視覚的プロンプトのための画像を生成し、VQAアルゴリズムで検証する。
実験により、自然なプロンプトと画像生成を一致させることで、生成した画像の一貫性を最大11%向上させることができることが示された。
論文 参考訳(メタデータ) (2023-05-24T11:08:26Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via
Positive-Negative Prompt-Tuning [85.10894272034135]
大規模テキスト・画像生成モデルは,高解像度の高画質な高画質特徴画像の合成において,顕著な進歩を遂げている。
最近の試みでは、参照画像集合から事前学習された拡散モデルの概念を教えるための微調整戦略や急速調整戦略が採用されている。
本稿では,DreamArtistという,肯定的かつ効果的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T10:37:56Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。