論文の概要: Use of triplet loss for facial restoration in low-resolution images
- arxiv url: http://arxiv.org/abs/2409.03530v1
- Date: Thu, 5 Sep 2024 13:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:28:22.295180
- Title: Use of triplet loss for facial restoration in low-resolution images
- Title(参考訳): 低解像度画像における3重項損失の顔復元への応用
- Authors: Sebastian Pulgar, Domingo Mery,
- Abstract要約: 本稿では、個々のアイデンティティを保存した高解像度画像を生成することに焦点を当てた新しいSRモデルFTLGANを提案する。
結果は説得力があり、最先端の最先端モデルよりも21%高いd'の平均値を示す。
- 参考スコア(独自算出の注目度): 5.448070998907116
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, facial recognition (FR) models have become the most widely used biometric tool, achieving impressive results on numerous datasets. However, inherent hardware challenges or shooting distances often result in low-resolution images, which significantly impact the performance of FR models. To address this issue, several solutions have been proposed, including super-resolution (SR) models that generate highly realistic faces. Despite these efforts, significant improvements in FR algorithms have not been achieved. We propose a novel SR model FTLGAN, which focuses on generating high-resolution images that preserve individual identities rather than merely improving image quality, thereby maximizing the performance of FR models. The results are compelling, demonstrating a mean value of d' 21% above the best current state-of-the-art models, specifically having a value of d' = 1.099 and AUC = 0.78 for 14x14 pixels, d' = 2.112 and AUC = 0.92 for 28x28 pixels, and d' = 3.049 and AUC = 0.98 for 56x56 pixels. The contributions of this study are significant in several key areas. Firstly, a notable improvement in facial recognition performance has been achieved in low-resolution images, specifically at resolutions of 14x14, 28x28, and 56x56 pixels. Secondly, the enhancements demonstrated by FTLGAN show a consistent response across all resolutions, delivering outstanding performance uniformly, unlike other comparative models. Thirdly, an innovative approach has been implemented using triplet loss logic, enabling the training of the super-resolution model solely with real images, contrasting with current models, and expanding potential real-world applications. Lastly, this study introduces a novel model that specifically addresses the challenge of improving classification performance in facial recognition systems by integrating facial recognition quality as a loss during model training.
- Abstract(参考訳): 近年、顔認識(FR)モデルは最も広く使われている生体計測ツールとなり、多くのデータセットで印象的な結果が得られている。
しかし、固有のハードウェアの課題や撮影距離はしばしば低解像度の画像をもたらし、FRモデルの性能に大きな影響を及ぼす。
この問題に対処するために、非常に現実的な顔を生成する超解像(SR)モデルなど、いくつかの解決策が提案されている。
これらの努力にもかかわらず、FRアルゴリズムの大幅な改善は達成されていない。
画像品質を向上するだけでなく、個々のアイデンティティを保存し、FRモデルの性能を最大化することを目的とした、新しいSRモデルFTLGANを提案する。
d' = 1.099とAUC = 0.78は14x14ピクセル、d' = 2.112とAUC = 0.92は28x28ピクセル、d' = 3.049とAUC = 0.98は56x56ピクセルである。
本研究の貢献はいくつかの重要な領域において重要である。
まず、低解像度画像、特に14x14、28x28、56x56ピクセルの解像度で、顔認識性能が顕著に向上した。
第2に、FTLGANが示した拡張はすべての解像度で一貫した応答を示し、他の比較モデルとは異なり、一貫した性能を実現している。
第三に、三重項損失論理を用いて革新的なアプローチが実装され、実際の画像のみを用いて超解像モデルのトレーニングを可能にし、現在のモデルと対比し、潜在的な現実世界のアプリケーションを拡張することができる。
最後に,モデル学習における損失として顔認識品質を統合することにより,顔認識システムにおける分類性能向上の課題に対処する新しいモデルを提案する。
関連論文リスト
- Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Octuplet Loss: Make Face Recognition Robust to Image Resolution [5.257115841810258]
本稿では,画像解像度に対するロバスト性を改善するために,人気三重項損失の新たな組み合わせを提案する。
我々は,高分解能画像とそれらの合成ダウンサンプリング変異体との関係をアイデンティティラベルと組み合わせて活用する。
本手法は, クロスレゾリューション (高分解能) 顔認証の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-07-14T08:22:58Z) - Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。
DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z) - Cross-Quality LFW: A Database for Analyzing Cross-Resolution Image Face
Recognition in Unconstrained Environments [8.368543987898732]
現実世界の顔認識アプリケーションは、異なるキャプチャ条件のために、最適な画像の品質や解像度を扱うことが多い。
最近のクロスレゾリューション顔認識手法は、画像品質における現実のエッジケースとの距離を測定するために、単純で任意で非現実的なダウンスケールとアップスケーリングの手法を用いている。
本稿では,Wildにおける有名なラベル付き顔から派生した,新しい標準ベンチマークデータセットと評価プロトコルを提案する。
論文 参考訳(メタデータ) (2021-08-23T17:04:32Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文 参考訳(メタデータ) (2020-06-16T09:17:17Z) - Feature Super-Resolution Based Facial Expression Recognition for
Multi-scale Low-Resolution Faces [7.634398926381845]
超解像法はしばしば低分解能画像の高精細化に使用されるが、FERタスクの性能は極低分解能画像では制限される。
本研究では,物体検出のための特徴的超解像法に触発されて,頑健な表情認識のための新たな生成逆ネットワークに基づく超解像法を提案する。
論文 参考訳(メタデータ) (2020-04-05T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。