論文の概要: High Fidelity Text to Image Generation with Contrastive Alignment and Structural Guidance
- arxiv url: http://arxiv.org/abs/2508.10280v1
- Date: Thu, 14 Aug 2025 02:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.154357
- Title: High Fidelity Text to Image Generation with Contrastive Alignment and Structural Guidance
- Title(参考訳): コントラストアライメントと構造誘導を用いた高忠実テキストと画像生成
- Authors: Danyi Gao,
- Abstract要約: 本稿では,既存のテキスト駆動画像生成手法の性能を,意味的アライメントの精度と構造的整合性の観点から考察する。
テキスト画像のコントラスト制約と構造誘導機構を統合することで,高忠実度画像生成手法を提案する。
本手法は,計算複雑性を増大させることなく,意味的アライメントと構造的忠実度とのギャップを効果的に埋めることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the performance bottlenecks of existing text-driven image generation methods in terms of semantic alignment accuracy and structural consistency. A high-fidelity image generation method is proposed by integrating text-image contrastive constraints with structural guidance mechanisms. The approach introduces a contrastive learning module that builds strong cross-modal alignment constraints to improve semantic matching between text and image. At the same time, structural priors such as semantic layout maps or edge sketches are used to guide the generator in spatial-level structural modeling. This enhances the layout completeness and detail fidelity of the generated images. Within the overall framework, the model jointly optimizes contrastive loss, structural consistency loss, and semantic preservation loss. A multi-objective supervision mechanism is adopted to improve the semantic consistency and controllability of the generated content. Systematic experiments are conducted on the COCO-2014 dataset. Sensitivity analyses are performed on embedding dimensions, text length, and structural guidance strength. Quantitative metrics confirm the superior performance of the proposed method in terms of CLIP Score, FID, and SSIM. The results show that the method effectively bridges the gap between semantic alignment and structural fidelity without increasing computational complexity. It demonstrates a strong ability to generate semantically clear and structurally complete images, offering a viable technical path for joint text-image modeling and image generation.
- Abstract(参考訳): 本稿では,既存のテキスト駆動画像生成手法の性能ボトルネックを,意味的アライメントの精度と構造的整合性の観点から考察する。
テキスト画像のコントラスト制約と構造誘導機構を統合することで,高忠実度画像生成手法を提案する。
このアプローチでは、テキストと画像のセマンティックマッチングを改善するために、強力なクロスモーダルアライメント制約を構築する、対照的な学習モジュールを導入している。
同時に、セマンティックレイアウトマップやエッジスケッチのような構造的先行要素を使用して、空間レベルの構造モデリングにおいてジェネレータを誘導する。
これにより、生成された画像のレイアウト完全性と詳細忠実度が向上する。
全体的なフレームワークの中で、モデルはコントラスト的損失、構造的整合性損失、意味的保存損失を共同で最適化する。
生成したコンテンツのセマンティック一貫性と制御性を改善するために、多目的監視機構を採用する。
システム実験はCOCO-2014データセット上で実施される。
埋め込み寸法, テキスト長, 構造誘導強度について, 感度解析を行った。
定量的測定により,CLIPスコア,FID,SSIMの観点から,提案手法の優れた性能が確認された。
本手法は,計算複雑性を増大させることなく,意味的アライメントと構造的忠実度とのギャップを効果的に埋めることを示す。
これは意味的に明確で構造的に完全な画像を生成する強力な能力を示し、共同のテキストイメージモデリングと画像生成のための実行可能な技術パスを提供する。
関連論文リスト
- Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Enhancing Object Coherence in Layout-to-Image Synthesis [2.3805413240744304]
本稿では,オブジェクトのコヒーレンスを導くために,効果的なグローバルセマンティックフュージョン(GSF)と自己相似特徴拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。
物理コヒーレンスを改善するため,各画素の生成プロセスに局所的な物理的コヒーレンス関係を明示的に統合する自己相似コヒーレンスアテンション合成(SCA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-17T13:43:43Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。