論文の概要: Rhetorical Text-to-Image Generation via Two-layer Diffusion Policy Optimization
- arxiv url: http://arxiv.org/abs/2505.22792v1
- Date: Wed, 28 May 2025 19:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.494515
- Title: Rhetorical Text-to-Image Generation via Two-layer Diffusion Policy Optimization
- Title(参考訳): 二層拡散最適化による修辞テキスト・画像生成
- Authors: Yuxi Zhang, Yueting Li, Xinyu Du, Sibo Wang,
- Abstract要約: Rhet2Pixは、多段階ポリシー最適化問題として修辞的テキスト・画像生成を定式化するフレームワークである。
GPT-4o,Grok-3などのSOTA MLLMと,定性評価と定量的評価の両面において,本モデルの方が優れた成績を示した。
- 参考スコア(独自算出の注目度): 6.169979847774362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating images from rhetorical languages remains a critical challenge for text-to-image models. Even state-of-the-art (SOTA) multimodal large language models (MLLM) fail to generate images based on the hidden meaning inherent in rhetorical language--despite such content being readily mappable to visual representations by humans. A key limitation is that current models emphasize object-level word embedding alignment, causing metaphorical expressions to steer image generation towards their literal visuals and overlook the intended semantic meaning. To address this, we propose Rhet2Pix, a framework that formulates rhetorical text-to-image generation as a multi-step policy optimization problem, incorporating a two-layer MDP diffusion module. In the outer layer, Rhet2Pix converts the input prompt into incrementally elaborated sub-sentences and executes corresponding image-generation actions, constructing semantically richer visuals. In the inner layer, Rhet2Pix mitigates reward sparsity during image generation by discounting the final reward and optimizing every adjacent action pair along the diffusion denoising trajectory. Extensive experiments demonstrate the effectiveness of Rhet2Pix in rhetorical text-to-image generation. Our model outperforms SOTA MLLMs such as GPT-4o, Grok-3 and leading academic baselines across both qualitative and quantitative evaluations. The code and dataset used in this work are publicly available.
- Abstract(参考訳): 修辞言語から画像を生成することは、テキスト・ツー・イメージ・モデルにとって重要な課題である。
最先端(SOTA)マルチモーダル言語モデル(MLLM)でさえ、人間による視覚表現に容易に対応できるにもかかわらず、修辞言語固有の隠された意味に基づいて画像を生成することができない。
重要な制限は、現在のモデルがオブジェクトレベルの単語埋め込みアライメントを強調し、比喩表現がイメージ生成をリテラルな視覚に向け、意図された意味的意味を見落としてしまうことである。
そこで本研究では,2層MDP拡散モジュールを組み込んだ多段階ポリシー最適化問題として,修辞的テキスト・画像生成を定式化するフレームワークであるRhet2Pixを提案する。
外層では、Rhet2Pixは入力プロンプトをインクリメンタルに精巧なサブ文に変換し、対応する画像生成アクションを実行し、意味的にリッチなビジュアルを構築する。
内部層では、Rhet2Pixは最終報酬を割引し、拡散偏向軌道に沿って隣り合うすべてのアクションペアを最適化することにより、画像生成時の報酬空間を緩和する。
大規模な実験は、修辞的テキスト・画像生成におけるRhet2Pixの有効性を示す。
GPT-4o,Grok-3などのSOTA MLLMと,定性評価と定量的評価の両面において,本モデルの方が優れた成績を示した。
この作業で使用されるコードとデータセットが公開されている。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation [44.740794326596664]
TheaterGenは、大規模な言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルを統合した、トレーニング不要のフレームワークである。
このフレームワーク内では、LLMは"Screenwriter"として機能し、マルチターンインタラクションを行い、標準化されたプロンプトブックを生成し管理する。
プロンプトブックとキャラクタイメージの効果的な管理により、StaceGenは合成画像のセマンティックとコンテキスト整合性を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-29T17:58:14Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。