Fugu-MT 論文翻訳(概要): Locally-Focused Face Representation for Sketch-to-Image Generation Using Noise-Induced Refinement

論文の概要: Locally-Focused Face Representation for Sketch-to-Image Generation Using Noise-Induced Refinement

arxiv url: http://arxiv.org/abs/2411.19005v1
Date: Thu, 28 Nov 2024 09:12:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.741351
Title: Locally-Focused Face Representation for Sketch-to-Image Generation Using Noise-Induced Refinement
Title（参考訳）: 雑音誘起リファインメントを用いたスケッチ・ツー・イメージ生成のための局所焦点顔表現
Authors: Muhammad Umer Ramzan, Ali Zia, Abdelwahed Khamis, yman Elgharabawy, Ahmad Liaqat, Usman Ali,
Abstract要約: 本稿では,初歩的な顔スケッチの高忠実度カラー画像への変換を著しく向上させる新しいディープラーニングフレームワークを提案する。提案手法は,エンコーダ・デコーダアーキテクチャ内のブロックアテンション機構により,顔の特徴を効果的に捉え,強化する。このモデルは、スケッチ・ツー・イメージ生成における新しい最先端の状態を設定し、スケッチの型を一般化し、法執行機関における犯罪識別のようなアプリケーションに対して堅牢なソリューションを提供する。
参考スコア（独自算出の注目度）: 1.7409266903306055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a novel deep-learning framework that significantly enhances the transformation of rudimentary face sketches into high-fidelity colour images. Employing a Convolutional Block Attention-based Auto-encoder Network (CA2N), our approach effectively captures and enhances critical facial features through a block attention mechanism within an encoder-decoder architecture. Subsequently, the framework utilises a noise-induced conditional Generative Adversarial Network (cGAN) process that allows the system to maintain high performance even on domains unseen during the training. These enhancements lead to considerable improvements in image realism and fidelity, with our model achieving superior performance metrics that outperform the best method by FID margin of 17, 23, and 38 on CelebAMask-HQ, CUHK, and CUFSF datasets; respectively. The model sets a new state-of-the-art in sketch-to-image generation, can generalize across sketch types, and offers a robust solution for applications such as criminal identification in law enforcement.
Abstract（参考訳）: 本稿では,初歩的な顔スケッチの高忠実度カラー画像への変換を著しく向上させる新しいディープラーニングフレームワークを提案する。進化的ブロックアテンションに基づくオートエンコーダネットワーク(CA2N)を用いて,エンコーダ・デコーダアーキテクチャ内のブロックアテンション機構を通じて,重要な顔の特徴を効果的に捉え,拡張する。その後、このフレームワークは、トレーニング中に見つからないドメインでも高いパフォーマンスを維持することができる、ノイズ誘導型条件付き生成適応ネットワーク(cGAN)プロセスを利用する。これらの拡張により、画像リアリズムと忠実度が大幅に向上し、当社のモデルでは、CelebAMask-HQ、CUHK、CUFSFデータセットにおいて、FIDマージン17、23、38のベストメソッドよりも優れたパフォーマンス指標が達成されている。このモデルは、スケッチ・ツー・イメージ生成における新しい最先端の状態を設定し、スケッチの型を一般化し、法執行機関における犯罪識別のようなアプリケーションに対して堅牢なソリューションを提供する。

関連論文リスト

SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文参考訳（メタデータ） (2025-12-18T18:59:04Z)
Foundations and Models in Modern Computer Vision: Key Building Blocks in Landmark Architectures [34.542592986038265]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。本稿では,残差接続を導入したResNetについて概説する。画像パッチのシーケンスにトランスフォーマーアーキテクチャを適用し,新たなパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文参考訳（メタデータ） (2025-07-31T09:08:11Z)
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。 ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文参考訳（メタデータ） (2025-07-11T09:32:45Z)
A Watermark for Auto-Regressive Image Generation Models [50.599325258178254]
画像生成モデル用に明示的に設計された歪みのない透かし法であるC-reweightを提案する。 C-reweightは画像の忠実性を維持しながら再起動ミスマッチを緩和する。
論文参考訳（メタデータ） (2025-06-13T00:15:54Z)
GL-PGENet: A Parameterized Generation Framework for Robust Document Image Enhancement [2.615648035076649]
ドキュメント画像強調(DIE)は、ドキュメントAIシステムにおいて重要なコンポーネントであり、そのパフォーマンスが下流タスクの有効性を決定する。マルチ劣化カラー文書画像のための新しいアーキテクチャであるGlobal with Local Parametric Generation Enhancement Network (GL-PGENet)について述べる。
論文参考訳（メタデータ） (2025-05-28T06:37:06Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
High-Resolution Image Synthesis via Next-Token Prediction [19.97037318862443]
連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。次世代の予測により,最先端の高精細画像合成を実現する。
論文参考訳（メタデータ） (2024-11-22T09:08:58Z)
$R^2$-Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement [5.810659946867557]
Neural Radiance Fields (NeRF)に基づくメッシュ再構成は、コンピュータグラフィックス、仮想現実、医療画像などの様々なアプリケーションで人気がある。マルチビュー画像からメッシュを段階的に生成し,最適化する新しいアルゴリズムを提案する。本手法は,メッシュレンダリングの品質と幾何学的品質の両方において,高い競争力とロバストな性能を提供する。
論文参考訳（メタデータ） (2024-08-19T16:33:17Z)
Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文参考訳（メタデータ） (2024-03-11T08:45:31Z)
Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文参考訳（メタデータ） (2024-02-23T01:34:00Z)
A Comprehensive End-to-End Computer Vision Framework for Restoration and Recognition of Low-Quality Engineering Drawings [19.375278164300987]
本稿では,低品質なエンジニアリング図面の復元と認識に焦点を当てる。図面の品質を向上し,図面上の図形記号を識別するために,エンドツーエンドのフレームワークを提案する。実世界の電気図の実験では、提案されたフレームワークは98.98%の精度と99.33%のリコールを達成した。
論文参考訳（メタデータ） (2023-12-21T07:22:25Z)
DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文参考訳（メタデータ） (2023-12-12T06:07:21Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Dual-Activated Lightweight Attention ResNet50 for Automatic Histopathology Breast Cancer Image Classification [0.0]
本研究では,乳がんの新たな分類法であるDual-Activated Lightweight Attention ResNet50モデルを提案する。トレーニング済みのResNet50モデルと軽量なアテンション機構を統合し、ResNet50の第4層にアテンションモジュールを埋め込む。 DALAResNet50法は,40X,100X,200X,400Xの乳がん組織像を用いて,それぞれ98.5%,98.7%,97.9%,94.3%の検診を行った。
論文参考訳（メタデータ） (2023-08-25T03:08:41Z)
CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文参考訳（メタデータ） (2022-03-22T16:13:27Z)
A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文参考訳（メタデータ） (2021-12-07T05:22:50Z)
Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文参考訳（メタデータ） (2021-03-25T07:10:46Z)
Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文参考訳（メタデータ） (2020-01-09T10:37:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。