Fugu-MT 論文翻訳(概要): Boosting Text-to-Image Diffusion Models with Fine-Grained Semantic Rewards

論文の概要: Boosting Text-to-Image Diffusion Models with Fine-Grained Semantic Rewards

arxiv url: http://arxiv.org/abs/2305.19599v1
Date: Wed, 31 May 2023 06:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 18:10:16.597853
Title: Boosting Text-to-Image Diffusion Models with Fine-Grained Semantic Rewards
Title（参考訳）: 微粒化セマンティックリワードを用いたテキスト・画像拡散モデルの構築
Authors: Guian Fang, Zutao Jiang, Jianhua Han, Guangsong Lu, Hang Xu, Xiaodan Liang
Abstract要約: 本研究では,テキストから画像への拡散モデルにおけるテキストと画像のアライメントを改善するためにFineRewardsを提案する。キャプション報酬は、合成画像中のすべての重要な内容を表す対応する詳細なキャプションを生成する。 Semantic Segment Anything (SAM) は、生成されたイメージをカテゴリラベル付きのローカルな部分に分割する。
参考スコア（独自算出の注目度）: 71.41680549642687
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in text-to-image diffusion models have achieved remarkable success in generating high-quality, realistic images from given text prompts. However, previous methods fail to perform accurate modality alignment between text concepts and generated images due to the lack of fine-level semantic guidance that successfully diagnoses the modality discrepancy. In this paper, we propose FineRewards to improve the alignment between text and images in text-to-image diffusion models by introducing two new fine-grained semantic rewards: the caption reward and the Semantic Segment Anything (SAM) reward. From the global semantic view, the caption reward generates a corresponding detailed caption that depicts all important contents in the synthetic image via a BLIP-2 model and then calculates the reward score by measuring the similarity between the generated caption and the given prompt. From the local semantic view, the SAM reward segments the generated images into local parts with category labels, and scores the segmented parts by measuring the likelihood of each category appearing in the prompted scene via a large language model, i.e., Vicuna-7B. Additionally, we adopt an assemble reward-ranked learning strategy to enable the integration of multiple reward functions to jointly guide the model training. Adapting results of text-to-image models on the MS-COCO benchmark show that the proposed semantic reward outperforms other baseline reward functions with a considerable margin on both visual quality and semantic similarity with the input prompt. Moreover, by adopting the assemble reward-ranked learning strategy, we further demonstrate that model performance is further improved when adapting under the unifying of the proposed semantic reward with the current image rewards.
Abstract（参考訳）: テキスト間拡散モデルの最近の進歩は、与えられたテキストプロンプトから高品質でリアルな画像を生成することに成功している。しかし,テキスト概念と生成画像との正確なモーダリティアライメントは,モーダリティの不一致を正しく診断する詳細な意味指導が欠如しているため,従来の手法では実現できなかった。本稿では,テキストから画像への拡散モデルにおけるテキストと画像のアライメントを改善するために,キャプションの報酬と意味セグメントの報酬という2つの新しい細粒度な意味的報酬を導入することを提案する。グローバルセマンティックビューから、キャプション報酬は、BLIP−2モデルを介して合成画像のすべての重要な内容を描いた対応する詳細なキャプションを生成し、生成されたキャプションと与えられたプロンプトとの類似度を測定して報酬スコアを算出する。ローカルセマンティックビューでは、SAM報酬は生成された画像をカテゴリラベル付きローカル部分に分割し、大きな言語モデル、すなわちVicuna-7Bを介して、プロンプトシーンに現れる各カテゴリの可能性を測定してセグメント化された部分を評価する。さらに,複数の報酬関数の統合によるモデルトレーニングの指導を可能にするために,報酬ランク学習戦略をアセンブル化する。 MS-COCOベンチマークにおけるテキスト・ツー・イメージモデルの適用結果から,提案したセマンティック報酬は,入力プロンプトと視覚的品質と意味的類似性の両方において,他のベースライン報酬関数よりも優れていた。さらに,アセンブル報酬ランク学習戦略を採用することで,提案する意味的報酬と現在の画像報酬の一体化により,モデル性能がさらに向上することを示す。

関連論文リスト

FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL [78.59912944698992]
微細なテキスト画像のセマンティックアライメントを強化するためにFocusDiffを提案する。我々は、類似した全体表現を持つペアテキストと画像の新しいデータセットを構築するが、局所的な意味論を区別する。提案手法は,既存のテキスト・画像・ベンチマークにおける最先端性能を実現し,PairCompの先行手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-06-05T18:36:33Z)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
ソフトテキストトークンを用いたSoftREPAと呼ばれる軽量なコントラスト微調整方式を導入する。本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳（メタデータ） (2025-03-11T10:14:22Z)
Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。 VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文参考訳（メタデータ） (2025-01-01T18:27:13Z)
HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文参考訳（メタデータ） (2024-11-27T15:22:44Z)
Generating Intermediate Representations for Compositional Text-To-Image Generation [16.757550214291015]
2つの段階に基づくテキスト・画像生成のための合成手法を提案する。第1段階では,テキストに条件付けされた1つ以上の中間表現を生成する拡散に基づく生成モデルを設計する。第2段階では、これらの表現をテキストとともに、別個の拡散ベース生成モデルを用いて最終出力画像にマッピングする。
論文参考訳（メタデータ） (2024-10-13T10:24:55Z)
Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T15:01:16Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
Improving Compositional Text-to-image Generation with Large Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文参考訳（メタデータ） (2023-10-10T05:09:05Z)
Textual and Visual Prompt Fusion for Image Editing via Step-Wise Alignment [10.82748329166797]
本研究では,生成した視覚的参照とテキストガイダンスを融合したフレームワークを提案する。私たちのフレームワークは、小さなニューラルネットワークのみを使用して、テキストプロンプトによって直感的に駆動される多様なコンテンツや属性を制御する。
論文参考訳（メタデータ） (2023-08-30T08:40:15Z)
Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文参考訳（メタデータ） (2023-08-24T17:59:01Z)
Variational Distribution Learning for Unsupervised Text-to-Image Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文参考訳（メタデータ） (2023-03-28T16:18:56Z)
Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文参考訳（メタデータ） (2022-11-14T11:41:44Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文参考訳（メタデータ） (2021-04-01T15:48:01Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。