論文の概要: HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.06512v1
- Date: Sat, 10 May 2025 05:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.877641
- Title: HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation
- Title(参考訳): HCMA:地中テキスト・画像生成のための階層的クロスモデルアライメント
- Authors: Hang Wang, Zhi-Qi Cheng, Chenhao Lin, Chao Shen, Lei Zhang,
- Abstract要約: 画像生成のための階層的クロスモーダルアライメント(HCMA)フレームワークを提案する。
HCMAは2つのアライメントモジュールを各拡散サンプリングステップに統合する。
MS-COCO 2014検証セットの実験では、HCMAが最先端のベースラインを超えたことが示されている。
- 参考スコア(独自算出の注目度): 27.770224730465237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis has progressed to the point where models can generate visually compelling images from natural language prompts. Yet, existing methods often fail to reconcile high-level semantic fidelity with explicit spatial control, particularly in scenes involving multiple objects, nuanced relations, or complex layouts. To bridge this gap, we propose a Hierarchical Cross-Modal Alignment (HCMA) framework for grounded text-to-image generation. HCMA integrates two alignment modules into each diffusion sampling step: a global module that continuously aligns latent representations with textual descriptions to ensure scene-level coherence, and a local module that employs bounding-box layouts to anchor objects at specified locations, enabling fine-grained spatial control. Extensive experiments on the MS-COCO 2014 validation set show that HCMA surpasses state-of-the-art baselines, achieving a 0.69 improvement in Frechet Inception Distance (FID) and a 0.0295 gain in CLIP Score. These results demonstrate HCMA's effectiveness in faithfully capturing intricate textual semantics while adhering to user-defined spatial constraints, offering a robust solution for semantically grounded image generation.Our code is available at https://github.com/hwang-cs-ime/HCMA
- Abstract(参考訳): テキストと画像の合成は、モデルが自然言語のプロンプトから視覚的に魅力的な画像を生成できるまで進歩してきた。
しかし、既存の手法では、特に複数のオブジェクト、ニュアンス付き関係、複雑なレイアウトを含むシーンにおいて、高レベルの意味的忠実度を明示的な空間的制御と整合することができないことが多い。
このギャップを埋めるために,テキスト・画像生成のための階層的クロスモーダルアライメント(HCMA)フレームワークを提案する。
HCMAは2つのアライメントモジュールを,各拡散サンプリングステップに統合する。遅延表現とテキスト記述を連続的に整列してシーンレベルのコヒーレンスを保証するグローバルモジュールと,特定の場所にオブジェクトをアンカーするためにバウンディングボックスレイアウトを使用するローカルモジュールである。
MS-COCO 2014バリデーションセットの大規模な実験によると、HCMAは最先端のベースラインを超え、Frechet Inception Distance (FID)の0.69の改善とCLIP Scoreの0.0295のゲインを達成した。
これらの結果は,ユーザ定義の空間制約に固執しながら,複雑なテキスト意味論を忠実にキャプチャするHCMAの有効性を示し,セマンティックグラウンドド画像生成のための堅牢なソリューションを提供し,我々のコードはhttps://github.com/hwang-cs-ime/HCMAで公開されている。
関連論文リスト
- Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。
隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。
物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文 参考訳(メタデータ) (2024-08-23T15:16:01Z) - Enhancing Object Coherence in Layout-to-Image Synthesis [2.3805413240744304]
本稿では,オブジェクトのコヒーレンスを導くために,効果的なグローバルセマンティックフュージョン(GSF)と自己相似特徴拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。
物理コヒーレンスを改善するため,各画素の生成プロセスに局所的な物理的コヒーレンス関係を明示的に統合する自己相似コヒーレンスアテンション合成(SCA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-17T13:43:43Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。