論文の概要: Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion
- arxiv url: http://arxiv.org/abs/2603.09484v1
- Date: Tue, 10 Mar 2026 10:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.235772
- Title: Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion
- Title(参考訳): 自己注意エンコーディングとコーディネート保存融合を用いた成分認識型スケッチ・ツー・イメージ生成
- Authors: Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi,
- Abstract要約: フリーハンドスケッチをフォトリアリスティックな画像に変換することは、画像合成の根本的な課題である。
GANベースのモデルや拡散ベースのモデルを含む既存のアプローチは、細かな細部を再構築したり、空間的アライメントを維持したり、異なるスケッチ領域に適応するのに苦労することが多い。
本稿では,新しい2段階アーキテクチャを用いて,これらの課題に対処するスケッチ・ツー・イメージ生成のための,コンポーネント対応の自己修正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.510998372750843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating freehand sketches into photorealistic images remains a fundamental challenge in image synthesis, particularly due to the abstract, sparse, and stylistically diverse nature of sketches. Existing approaches, including GAN-based and diffusion-based models, often struggle to reconstruct fine-grained details, maintain spatial alignment, or adapt across different sketch domains. In this paper, we propose a component-aware, self-refining framework for sketch-to-image generation that addresses these challenges through a novel two-stage architecture. A Self-Attention-based Autoencoder Network (SA2N) first captures localised semantic and structural features from component-wise sketch regions, while a Coordinate-Preserving Gated Fusion (CGF) module integrates these into a coherent spatial layout. Finally, a Spatially Adaptive Refinement Revisor (SARR), built on a modified StyleGAN2 backbone, enhances realism and consistency through iterative refinement guided by spatial context. Extensive experiments across both facial (CelebAMask-HQ, CUFSF) and non-facial (Sketchy, ChairsV2, ShoesV2) datasets demonstrate the robustness and generalizability of our method. The proposed framework consistently outperforms state-of-the-art GAN and diffusion models, achieving significant gains in image fidelity, semantic accuracy, and perceptual quality. On CelebAMask-HQ, our model improves over prior methods by 21% (FID), 58% (IS), 41% (KID), and 20% (SSIM). These results, along with higher efficiency and visual coherence across diverse domains, position our approach as a strong candidate for applications in forensics, digital art restoration, and general sketch-based image synthesis.
- Abstract(参考訳): フリーハンドスケッチをフォトリアリスティックなイメージに変換することは、特に抽象的、疎外的で、スタイリスティックに多彩なスケッチの性質のために、画像合成における根本的な課題である。
GANベースのモデルや拡散ベースのモデルを含む既存のアプローチは、細かな細部を再構築したり、空間的アライメントを維持したり、異なるスケッチ領域に適応するのに苦労することが多い。
本稿では,この課題に対処するスケッチ・ツー・イメージ・ジェネレーションのためのコンポーネント・アウェア・セルフ・リフィニング・フレームワークを,新しい2段階アーキテクチャにより提案する。
Self-Attention-based Autoencoder Network (SA2N) はまずコンポーネントのスケッチ領域から局所的な意味的特徴と構造的特徴をキャプチャし、Coordinate-Preserving Gated Fusion (CGF) モジュールはこれらをコヒーレントな空間レイアウトに統合する。
最後に、改良されたStyleGAN2バックボーン上に構築された空間適応リファインメント・リバイザ(SARR)は、空間コンテキストによってガイドされる反復的リファインメントを通じてリアリズムと一貫性を高める。
顔 (CelebAMask-HQ, CUFSF) と非顔 (Sketchy, ChairsV2, ShoesV2) の両方にわたる広範囲な実験により, 本手法の堅牢性と一般化性を示した。
提案手法は,最新のGANと拡散モデルより一貫して優れており,画像の忠実度,意味的精度,知覚的品質が著しく向上している。
CelebAMask-HQでは,従来の手法を21% (FID), 58% (IS), 41% (KID), 20% (SSIM) 改善した。
これらの結果は、様々な領域にわたる高い効率性と視覚的コヒーレンスとともに、我々のアプローチを、法医学、デジタルアート復元、一般的なスケッチに基づく画像合成における強力な候補として位置づけている。
関連論文リスト
- Neural Scene Designer: Self-Styled Semantic Image Manipulation [67.43125248646653]
我々は,ユーザが指定したシーン領域のリアルな写真操作を可能にする新しいフレームワークであるNeural Scene Designer (NSD)を紹介した。
NSDは、ユーザ意図とのセマンティックアライメントと、周辺環境とのスタイリスティックな整合性の両方を保証する。
細かなスタイル表現を捉えるために,プログレッシブ・セルフスタイル表現学習(PSRL)モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:59:03Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Biphasic Face Photo-Sketch Synthesis via Semantic-Driven Generative
Adversarial Network with Graph Representation Learning [40.544844623958426]
本稿では,これらの問題に対処するためのセマンティック・ドリブン・ジェネレーティブ・アドバイザリ・ネットワークを提案する。
人間の顔が異なる空間構造を持つことを考慮し、まず、生成元にクラスワイドなセマンティックレイアウトを注入する。
IntrA-class Semantic Graph (IASG) とInteR-class Structure Graph (IRSG) という2種類の表現グラフを構築した。
論文 参考訳(メタデータ) (2022-01-05T13:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。