論文の概要: PoemTale Diffusion: Minimising Information Loss in Poem to Image Generation with Multi-Stage Prompt Refinement
- arxiv url: http://arxiv.org/abs/2507.13708v2
- Date: Wed, 23 Jul 2025 13:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 12:00:05.640208
- Title: PoemTale Diffusion: Minimising Information Loss in Poem to Image Generation with Multi-Stage Prompt Refinement
- Title(参考訳): PoemTale Diffusion: 多段階のプロンプトリファインメントによる画像生成へのポエム情報の損失最小化
- Authors: Sofia Jamil, Bollampalli Areen Reddy, Raghvendra Kumar, Sriparna Saha, Koustava Goswami, K. J. Joseph,
- Abstract要約: PoemTale Diffusionは、詩的なテキストから画像への変換で失われる情報を最小化することを目的としている。
これを支援するため,既存の拡散モデルに適用し,自己認識機構を改良する。
詩の分野の研究を促進するために,1111詩からなるP4Iデータセットを紹介する。
- 参考スコア(独自算出の注目度): 18.293592213622183
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in text-to-image diffusion models have achieved remarkable success in generating realistic and diverse visual content. A critical factor in this process is the model's ability to accurately interpret textual prompts. However, these models often struggle with creative expressions, particularly those involving complex, abstract, or highly descriptive language. In this work, we introduce a novel training-free approach tailored to improve image generation for a unique form of creative language: poetic verse, which frequently features layered, abstract, and dual meanings. Our proposed PoemTale Diffusion approach aims to minimise the information that is lost during poetic text-to-image conversion by integrating a multi stage prompt refinement loop into Language Models to enhance the interpretability of poetic texts. To support this, we adapt existing state-of-the-art diffusion models by modifying their self-attention mechanisms with a consistent self-attention technique to generate multiple consistent images, which are then collectively used to convey the poem's meaning. Moreover, to encourage research in the field of poetry, we introduce the P4I (PoemForImage) dataset, consisting of 1111 poems sourced from multiple online and offline resources. We engaged a panel of poetry experts for qualitative assessments. The results from both human and quantitative evaluations validate the efficacy of our method and contribute a novel perspective to poem-to-image generation with enhanced information capture in the generated images.
- Abstract(参考訳): 近年のテキストと画像の拡散モデルの発展は、現実的で多様な視覚コンテンツを生成することに顕著な成功を収めている。
このプロセスにおける重要な要素は、モデルがテキストプロンプトを正確に解釈する能力である。
しかしながら、これらのモデルは創造的な表現、特に複雑、抽象的、あるいは非常に記述的な言語に苦しむことが多い。
本研究では,一意の創造的言語として,階層化,抽象化,二重的な意味を持つ詩詩を特徴とするイメージ生成を改善するための,新たな学習自由アプローチを提案する。
提案するPoemTale Diffusion アプローチは,多段階のプロンプト改善ループを言語モデルに統合し,詩文の解釈可能性を高めることによって,詩文から画像への変換において失われる情報を最小化することを目的としている。
これを支援するために,既存の拡散モデルを用いて,その自己認識機構を一貫した自己認識技術で修正し,複数の一貫した画像を生成する。
さらに、詩の分野の研究を促進するために、複数のオンライン・オフラインリソースから得られた1111の詩からなるP4I(PoemForImage)データセットを紹介する。
私たちは質的な評価のために詩の専門家のパネルに関わった。
人的,定量的両評価の結果は,本手法の有効性を検証し,生成した画像に情報キャプチャーを付加した詩・画像生成に新しい視点を貢献する。
関連論文リスト
- RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - Poetry in Pixels: Prompt Tuning for Poem Image Generation via Diffusion Models [18.293592213622183]
本稿では,詩の意味を視覚的に表現する画像を生成するためのPoemToPixelフレームワークを提案する。
提案手法は,画像生成フレームワークに即時チューニングという概念を取り入れ,得られた画像が詩的な内容と密接に一致することを保証する。
詩集の多様性を拡大するために,1001人の子どもの詩とイメージからなる新しいマルチモーダルデータセットであるMiniPoを紹介する。
論文 参考訳(メタデータ) (2025-01-10T10:26:54Z) - Semi-supervised Chinese Poem-to-Painting Generation via Cycle-consistent Adversarial Networks [2.250406890348191]
本稿では,周期整合型対数ネットワークを用いた半教師付き手法を提案する。
生成した詩や絵画の品質,多様性,一貫性を評価するために,新しい評価指標を導入する。
提案手法は従来の手法よりも優れており,芸術表現の象徴的本質をとらえる可能性を示唆している。
論文 参考訳(メタデータ) (2024-10-25T04:57:44Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Generating Chinese Poetry from Images via Concrete and Abstract
Information [23.690384629376005]
具体的なキーワードを各行の詩行に明示的な方法で埋め込むことができる埋め込み型漢詩生成モデルを提案する。
また、トレーニング中に非並列データを使用し、別の画像データセットと詩データセットを構築して、フレームワーク内のさまざまなコンポーネントをトレーニングします。
自動評価と人的評価の両方の結果から, 画質を損なうことなく, 画像との整合性の良い詩を生成できることが示唆された。
論文 参考訳(メタデータ) (2020-03-24T11:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。