論文の概要: You Only Landmark Once: Lightweight U-Net Face Super Resolution with YOLO-World Landmark Heatmaps
- arxiv url: http://arxiv.org/abs/2605.14166v1
- Date: Wed, 13 May 2026 22:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.524611
- Title: You Only Landmark Once: Lightweight U-Net Face Super Resolution with YOLO-World Landmark Heatmaps
- Title(参考訳): ライトウェイトなU-Net、世界各国のランドマーク・ヒートマップで超高解像度に
- Authors: Riccardo Carraro, Anna Briotto, Endi Hysa, Marco Fiorucci, Lamberto Ballan,
- Abstract要約: 顔画像の超解像は、非常に劣化した入力から高解像度の顔画像を取り戻すことを目的としている。
既存の手法は通常、重いネットワークアーキテクチャ、敵のトレーニングスキーム、または別々のアライメントネットワークに依存している。
我々は,16倍の16ドル入力から128倍の128ドルの顔画像を再構成し,8倍の倍率を達成する軽量なU-Netベースアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.027718003310901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face image super-resolution aims to recover high-resolution facial images from severely degraded inputs. Under extreme upscaling factors, fine facial details are often lost, making accurate reconstruction challenging. Existing methods typically rely on heavy network architectures, adversarial training schemes, or separate alignment networks, increasing model complexity and computational cost. To address these issues, we propose a lightweight U-Net based-architecture designed to reconstructs $128{ \times }128$ facial images from severely degraded $16{ \times }16$ inputs, achieving an $8 \times $ magnification. A key contribution is a novel auxiliary-training-free supervision strategy that leverages heatmaps generated by YOLO-World, an open-vocabulary object detector, to localize key facial features such as eyes, nose, and mouth. These heatmaps are converted into spatial weights to form a heatmap-guided loss that emphasizes reconstruction errors in semantically important regions. Unlike prior methods that require dedicated landmark or alignment networks, our approach directly reuses detector outputs as supervision, maintaining an efficient training and inference pipeline. Experiments on the aligned CelebA dataset demonstrate that the proposed loss consistently improves quantitative metrics and produces sharper, more realistic reconstructions. Overall, our results show that lightweight networks can effectively exploit detection-driven priors for perceptually convincing extreme upscaling, without adversarial training or increased computational cost.
- Abstract(参考訳): 顔画像の超解像は、非常に劣化した入力から高解像度の顔画像を取り戻すことを目的としている。
極端なアップスケーリングの要因の下では、細かい顔の細部が失われることが多く、正確な再構築は困難である。
既存の手法は通常、重いネットワークアーキテクチャ、敵のトレーニングスキーム、または別のアライメントネットワークに依存し、モデルの複雑さと計算コストを増大させる。
これらの問題に対処するために,128{ \times }128$の顔画像を16{ \times }16$の入力から再構成する軽量なU-Netベースアーキテクチャを提案する。
鍵となる貢献は、オープンボキャブラリオブジェクト検出器であるYOLO-Worldによって生成されたヒートマップを利用して、目、鼻、口などの重要な顔の特徴をローカライズする、新しい補助訓練なしの監視戦略である。
これらの熱マップは空間重みに変換され、意味的に重要な領域における再構成エラーを強調する熱マップ誘導損失を形成する。
専用のランドマークやアライメントネットワークを必要とする従来の手法とは異なり、我々の手法は検出器出力を直接監視として再利用し、効率的なトレーニングと推論パイプラインを維持する。
整列したCelebAデータセットの実験により、提案された損失は測定基準を一貫して改善し、よりシャープでより現実的な再構築をもたらすことが示された。
また,本研究の結果から,対角的トレーニングや計算コストの増大を伴わずに,検出駆動による過度なアップスケーリングを効果的に活用できることが示唆された。
関連論文リスト
- A Lightweight Deep Exclusion Unfolding Network for Single Image Reflection Removal [68.0573194557999]
シングルイメージリフレクション除去(SIRR)は、標準的なブラインドソース分離問題である。
本稿ではSIRRのための新しいDeep Exclusion Unfolding Network(DExNet)を提案する。
DExNetは、単純な反復スパースと補助的特徴更新(i-SAFU)アルゴリズムの展開とパラメータ化によって構築される。
論文 参考訳(メタデータ) (2025-03-03T07:54:27Z) - W-Net: A Facial Feature-Guided Face Super-Resolution Network [8.037821981254389]
Face Super-Resolutionは、高解像度 (HR) の顔画像を低解像度 (LR) の顔画像から復元することを目的としている。
既存手法は, 再建効率が低く, 事前情報の利用が不十分であるため, 理想的ではない。
本稿では,この課題に対処するため,W-Netと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-02T09:05:40Z) - Enhancing Digital Hologram Reconstruction Using Reverse-Attention Loss for Untrained Physics-Driven Deep Learning Models with Uncertain Distance [10.788482076164314]
未学習のディープラーニング手法におけるオートフォーカス問題に対処するための先駆的なアプローチを提案する。
提案手法は,競合する手法に対する大幅な再構成性能を示す。
例えば、PSNRでは1dB以下であり、SSIMでは0.002以下である。
論文 参考訳(メタデータ) (2024-01-11T01:30:46Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Exploiting Semantics for Face Image Deblurring [121.44928934662063]
本稿では,深層畳み込みニューラルネットワークによる意味的手がかりを利用して,効果的かつ効率的な顔分解アルゴリズムを提案する。
顔のセマンティックラベルを入力先として組み込んで,顔の局所構造を正規化するための適応的構造損失を提案する。
提案手法は、より正確な顔の特徴と細部を持つシャープ画像を復元する。
論文 参考訳(メタデータ) (2020-01-19T13:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。