論文の概要: Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis
- arxiv url: http://arxiv.org/abs/2302.08706v2
- Date: Mon, 20 Feb 2023 09:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 12:14:55.096429
- Title: Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis
- Title(参考訳): 微細粒状クロスモーダル核融合によるテキスト・画像合成
- Authors: Haoran Sun, Yang Wang, Haipeng Liu, Biao Qian
- Abstract要約: 本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。
FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
- 参考スコア(独自算出の注目度): 12.954663420736782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis refers to generating visual-realistic and
semantically consistent images from given textual descriptions. Previous
approaches generate an initial low-resolution image and then refine it to be
high-resolution. Despite the remarkable progress, these methods are limited in
fully utilizing the given texts and could generate text-mismatched images,
especially when the text description is complex. We propose a novel
Fine-grained text-image Fusion based Generative Adversarial Networks, dubbed
FF-GAN, which consists of two modules: Fine-grained text-image Fusion Block
(FF-Block) and Global Semantic Refinement (GSR). The proposed FF-Block
integrates an attention block and several convolution layers to effectively
fuse the fine-grained word-context features into the corresponding visual
features, in which the text information is fully used to refine the initial
image with more details. And the GSR is proposed to improve the global semantic
consistency between linguistic and visual features during the refinement
process. Extensive experiments on CUB-200 and COCO datasets demonstrate the
superiority of FF-GAN over other state-of-the-art approaches in generating
images with semantic consistency to the given texts.Code is available at
https://github.com/haoranhfut/FF-GAN.
- Abstract(参考訳): テキストから画像への合成(text-to-image synthesis)とは、与えられたテキスト記述から視覚的かつ意味的に一貫した画像を生成することを指す。
以前のアプローチでは、最初の低解像度イメージを生成し、それを高解像度に洗練する。
著しい進歩にもかかわらず、これらの手法は与えられたテキストを十分に活用することは限られており、特にテキスト記述が複雑であれば、テキストミスマッチ画像を生成することができる。
本稿では, ff-ganと呼ばれる, きめ細かなテキスト画像融合ブロック (ff-block) とglobal semanticfine (gsr) の2つのモジュールからなる, きめ細かなテキスト画像融合ベースの生成逆ネットワークを提案する。
提案するFF-Blockは、注目ブロックと複数の畳み込み層を統合し、細粒度の単語コンテキスト特徴を対応する視覚特徴に効果的に融合させる。
また,言語的特徴と視覚的特徴のグローバルな意味的整合性を改善するため,GSRを提案する。
CUB-200とCOCOデータセットに関する大規模な実験は、与えられたテキストにセマンティック一貫性のある画像を生成する場合、FF-GANが他の最先端アプローチよりも優れていることを示す。
関連論文リスト
- Image Fusion via Vision-Language Model [94.08749718119677]
本稿では, VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて紹介する。
FILMでは、入力画像を処理してセマンティックプロンプトを生成し、それをChatGPTに入力してリッチなテキスト記述を得る。
これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出を相互注意を通して導く。
このパラダイムは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて満足な結果を得る。
論文 参考訳(メタデータ) (2024-02-03T18:36:39Z) - TextFusion: Unveiling the Power of Textual Semantics for Controllable
Image Fusion [38.61215361212626]
本稿では,高度な画像融合のためのテキスト誘導融合パラダイムを提案する。
テキスト注釈付き画像融合データセットIVTをリリースする。
我々のアプローチは、従来の外見に基づく融合法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-12-21T09:25:10Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine
Semantic Re-alignment [91.13260535010842]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。