論文の概要: Poetry in Pixels: Prompt Tuning for Poem Image Generation via Diffusion Models
- arxiv url: http://arxiv.org/abs/2501.05839v1
- Date: Fri, 10 Jan 2025 10:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:27.322140
- Title: Poetry in Pixels: Prompt Tuning for Poem Image Generation via Diffusion Models
- Title(参考訳): ピクセルの詩:拡散モデルによる詩画像生成のためのプロンプトチューニング
- Authors: Sofia Jamil, Bollampalli Areen Reddy, Raghvendra Kumar, Sriparna Saha, K J Joseph, Koustava Goswami,
- Abstract要約: 本稿では,詩の意味を視覚的に表現する画像を生成するためのPoemToPixelフレームワークを提案する。
提案手法は,画像生成フレームワークに即時チューニングという概念を取り入れ,得られた画像が詩的な内容と密接に一致することを保証する。
詩集の多様性を拡大するために,1001人の子どもの詩とイメージからなる新しいマルチモーダルデータセットであるMiniPoを紹介する。
- 参考スコア(独自算出の注目度): 18.293592213622183
- License:
- Abstract: The task of text-to-image generation has encountered significant challenges when applied to literary works, especially poetry. Poems are a distinct form of literature, with meanings that frequently transcend beyond the literal words. To address this shortcoming, we propose a PoemToPixel framework designed to generate images that visually represent the inherent meanings of poems. Our approach incorporates the concept of prompt tuning in our image generation framework to ensure that the resulting images closely align with the poetic content. In addition, we propose the PoeKey algorithm, which extracts three key elements in the form of emotions, visual elements, and themes from poems to form instructions which are subsequently provided to a diffusion model for generating corresponding images. Furthermore, to expand the diversity of the poetry dataset across different genres and ages, we introduce MiniPo, a novel multimodal dataset comprising 1001 children's poems and images. Leveraging this dataset alongside PoemSum, we conducted both quantitative and qualitative evaluations of image generation using our PoemToPixel framework. This paper demonstrates the effectiveness of our approach and offers a fresh perspective on generating images from literary sources.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションの課題は、文学作品、特に詩に適用される際に大きな課題に直面している。
詩は文学の一形態であり、しばしばリテラル語を超越する意味を持つ。
この欠点に対処するために,詩の本来の意味を視覚的に表現する画像を生成するために設計されたPoemToPixelフレームワークを提案する。
提案手法は,画像生成フレームワークに即時チューニングという概念を取り入れ,得られた画像が詩的な内容と密接に一致することを保証する。
さらに,感情,視覚的要素,テーマの3つのキー要素を詩から抽出し,それに対応する画像を生成する拡散モデルを提供するPoeKeyアルゴリズムを提案する。
さらに,異なるジャンルや年齢にまたがる詩集の多様性を拡大するために,1001人の子どもの詩やイメージからなる新しい多モーダルデータセットであるMiniPoを導入する。
PoemSumとともにこのデータセットを活用し,PemToPixelフレームワークを用いて画像生成の定量的および定性的評価を行った。
本稿では,本手法の有効性を実証し,文献からのイメージ生成に新たな視点を提供する。
関連論文リスト
- Syllables to Scenes: Literary-Guided Free-Viewpoint 3D Scene Synthesis from Japanese Haiku [7.9900858134493]
本研究では,詩の抽象概念を空間表現に変換する新しいフレームワークであるHaikuVerseを紹介する。
本稿では,従来の詩の分析を先進的な生成技術と相乗化するための文芸指導的アプローチを提案する。
本研究の枠組みは,(1)構造的意味分解による明示的イメージと暗黙的感情共鳴を捉える階層的言語批判理論(H-LCTGP)と,(2)詩的要素を体系的に一貫性のある3Dシーンに変換する多段的次元合成(PDS)である。
論文 参考訳(メタデータ) (2025-02-17T09:18:06Z) - Semi-supervised Chinese Poem-to-Painting Generation via Cycle-consistent Adversarial Networks [2.250406890348191]
本稿では,周期整合型対数ネットワークを用いた半教師付き手法を提案する。
生成した詩や絵画の品質,多様性,一貫性を評価するために,新しい評価指標を導入する。
提案手法は従来の手法よりも優れており,芸術表現の象徴的本質をとらえる可能性を示唆している。
論文 参考訳(メタデータ) (2024-10-25T04:57:44Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Zero-shot Sonnet Generation with Discourse-level Planning and Aesthetics
Features [37.45490765899826]
詩の訓練を必要としないソネットを生成するための新しい枠組みを提案する。
具体的には、コンテンツ計画モジュールを非詩文で訓練し、談話レベルのコヒーレンスを得る。
また、生成されたソネットのパラメータとリズムの制約を課す制約付き復号アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-03T23:44:28Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Generating Chinese Poetry from Images via Concrete and Abstract
Information [23.690384629376005]
具体的なキーワードを各行の詩行に明示的な方法で埋め込むことができる埋め込み型漢詩生成モデルを提案する。
また、トレーニング中に非並列データを使用し、別の画像データセットと詩データセットを構築して、フレームワーク内のさまざまなコンポーネントをトレーニングします。
自動評価と人的評価の両方の結果から, 画質を損なうことなく, 画像との整合性の良い詩を生成できることが示唆された。
論文 参考訳(メタデータ) (2020-03-24T11:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。