論文の概要: Do It Yourself (DIY): Modifying Images for Poems in a Zero-Shot Setting Using Weighted Prompt Manipulation
- arxiv url: http://arxiv.org/abs/2509.11878v1
- Date: Mon, 15 Sep 2025 12:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.292417
- Title: Do It Yourself (DIY): Modifying Images for Poems in a Zero-Shot Setting Using Weighted Prompt Manipulation
- Title(参考訳): Do It Yourself (DIY): 軽量プロンプト操作によるゼロショット設定における歌の修正
- Authors: Sofia Jamil, Kotla Sai Charan, Sriparna Saha, Koustava Goswami, K J Joseph,
- Abstract要約: Weighted Prompt Manipulation (WPM) 技術を導入し, 拡散モデルに注意重みやテキストを埋め込む手法を提案する。
WPMは、最終生成画像におけるそれらの影響を増強または抑制し、意味的に豊かで、より文脈的に正確な視覚化をもたらす。
これは詩語における画像強化のための重み付けされたプロンプト操作を統合する最初の試みである。
- 参考スコア(独自算出の注目度): 20.357558748582942
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Poetry is an expressive form of art that invites multiple interpretations, as readers often bring their own emotions, experiences, and cultural backgrounds into their understanding of a poem. Recognizing this, we aim to generate images for poems and improve these images in a zero-shot setting, enabling audiences to modify images as per their requirements. To achieve this, we introduce a novel Weighted Prompt Manipulation (WPM) technique, which systematically modifies attention weights and text embeddings within diffusion models. By dynamically adjusting the importance of specific words, WPM enhances or suppresses their influence in the final generated image, leading to semantically richer and more contextually accurate visualizations. Our approach exploits diffusion models and large language models (LLMs) such as GPT in conjunction with existing poetry datasets, ensuring a comprehensive and structured methodology for improved image generation in the literary domain. To the best of our knowledge, this is the first attempt at integrating weighted prompt manipulation for enhancing imagery in poetic language.
- Abstract(参考訳): 詩は表現力のある芸術形態であり、読者が自分の感情、経験、文化的背景を詩の理解に取り入れることがしばしばある。
これを認識して、我々は詩のための画像を生成し、ゼロショット設定でこれらの画像を改善することを目指しており、観客は要求に応じて画像を修正できる。
そこで本研究では,注目重みとテキストの拡散モデルへの埋め込みを体系的に修正した,軽量プロンプトマニピュレーション(WPM)技術を提案する。
特定の単語の重要性を動的に調整することにより、WPMは最終生成画像におけるその影響を増強または抑制し、意味的によりリッチでより文脈的に正確な視覚化をもたらす。
提案手法では,GPTなどの拡散モデルと大規模言語モデル(LLM)を既存の詩データセットとともに活用し,文語領域における画像生成を改善するための包括的かつ構造化された手法を確実にする。
我々の知る限りでは、これは詩語における画像の強調のための重み付けされたプロンプト操作を統合する最初の試みである。
関連論文リスト
- PoemTale Diffusion: Minimising Information Loss in Poem to Image Generation with Multi-Stage Prompt Refinement [18.293592213622183]
PoemTale Diffusionは、詩的なテキストから画像への変換で失われる情報を最小化することを目的としている。
これを支援するため,既存の拡散モデルに適用し,自己認識機構を改良する。
詩の分野の研究を促進するために,1111詩からなるP4Iデータセットを紹介する。
論文 参考訳(メタデータ) (2025-07-18T07:33:08Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - Poetry in Pixels: Prompt Tuning for Poem Image Generation via Diffusion Models [18.293592213622183]
本稿では,詩の意味を視覚的に表現する画像を生成するためのPoemToPixelフレームワークを提案する。
提案手法は,画像生成フレームワークに即時チューニングという概念を取り入れ,得られた画像が詩的な内容と密接に一致することを保証する。
詩集の多様性を拡大するために,1001人の子どもの詩とイメージからなる新しいマルチモーダルデータセットであるMiniPoを紹介する。
論文 参考訳(メタデータ) (2025-01-10T10:26:54Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Poetry2Image: An Iterative Correction Framework for Images Generated from Chinese Classical Poetry [7.536700229966157]
Poetry2Imageは、漢詩から生成された画像の反復的な補正フレームワークである。
提案手法は70.63%の平均要素完全性を実現し,直接画像生成よりも25.56%向上した。
論文 参考訳(メタデータ) (2024-06-15T19:45:08Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。