論文の概要: DiFace: Cross-Modal Face Recognition through Controlled Diffusion
- arxiv url: http://arxiv.org/abs/2312.01367v1
- Date: Sun, 3 Dec 2023 12:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:29:46.991621
- Title: DiFace: Cross-Modal Face Recognition through Controlled Diffusion
- Title(参考訳): diface: 拡散制御によるクロスモーダル顔認識
- Authors: Bowen Sun, Shibao Zheng
- Abstract要約: 拡散確率モデル(DPM)は、優れた品質とリアリズムの視覚メディアを生成するのに非常に優れた能力を示した。
制御可能な拡散プロセスを通じて,テキストによる顔認識を効果的に実現する解であるDiFaceを提案する。
われわれのアプローチは、私たちの知る限り、テキストと画像の顔認識において、初めて顕著な精度を実現している。
- 参考スコア(独自算出の注目度): 3.8496256387884378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion probabilistic models (DPMs) have exhibited exceptional proficiency
in generating visual media of outstanding quality and realism. Nonetheless,
their potential in non-generative domains, such as face recognition, has yet to
be thoroughly investigated. Meanwhile, despite the extensive development of
multi-modal face recognition methods, their emphasis has predominantly centered
on visual modalities. In this context, face recognition through textual
description presents a unique and promising solution that not only transcends
the limitations from application scenarios but also expands the potential for
research in the field of cross-modal face recognition. It is regrettable that
this avenue remains unexplored and underutilized, a consequence from the
challenges mainly associated with three aspects: 1) the intrinsic imprecision
of verbal descriptions; 2) the significant gaps between texts and images; and
3) the immense hurdle posed by insufficient databases.To tackle this problem,
we present DiFace, a solution that effectively achieves face recognition via
text through a controllable diffusion process, by establishing its theoretical
connection with probability transport. Our approach not only unleashes the
potential of DPMs across a broader spectrum of tasks but also achieves, to the
best of our knowledge, a significant accuracy in text-to-image face recognition
for the first time, as demonstrated by our experiments on verification and
identification.
- Abstract(参考訳): 拡散確率モデル(DPM)は、優れた品質とリアリズムの視覚メディアを生成するのに非常に優れた能力を示した。
しかしながら、顔認識などの非生成領域におけるその可能性については、まだ十分に研究されていない。
一方で、マルチモーダル顔認識手法の広範な開発にもかかわらず、その重点は主に視覚モダリティに置かれている。
この文脈では、テキスト記述による顔認識は、アプリケーションシナリオから制限を超越するだけでなく、クロスモーダルな顔認識分野の研究の可能性を広げる、ユニークで有望なソリューションを提供する。
この道は、主に三つの側面にかかわる課題の結果、未調査で未利用のままであるというのは残念である。
1) 言語的記述の本質的不適合
2) テキストと画像の間に有意なギャップがあり,
3) データベース不足による膨大なハードルを克服するために, 確率伝達との理論的関係を確立することで, テキストによる顔認識を効果的に実現するソリューションである diface を提案する。
我々のアプローチは、幅広いタスクにまたがるdpmの可能性を解き放ち、我々の知識を最大限に活用するだけでなく、検証と識別の実験で示されるように、テキストから画像への顔認識において初めてかなりの精度を達成します。
関連論文リスト
- Object recognition in primates: What can early visual areas contribute? [0.0]
本研究では,初期視覚処理領域で搬送される信号が周囲の物体認識にどのように利用されるかを検討した。
V1の単純なセルや複雑なセルのモデルは、非常に信頼できる情報を提供することができ、現実的なシナリオでは80%以上の性能が向上する。
我々は,物体認識を並列プロセスと見なすべきであり,低精度かつ高速なモジュールと並列に動作し,視野をまたいで動作可能であることを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:57:09Z) - Effective Adapter for Face Recognition in the Wild [72.75516495170199]
私たちは、画像が低品質で現実世界の歪みに悩まされる、野生の顔認識の課題に取り組みます。
従来のアプローチでは、劣化した画像や、顔の復元技術を使って強化された画像を直接訓練するが、効果がないことが証明された。
高品質な顔データセットで訓練された既存の顔認識モデルを強化するための効果的なアダプタを提案する。
論文 参考訳(メタデータ) (2023-12-04T08:55:46Z) - Harnessing Unrecognizable Faces for Face Recognition [87.80037162457427]
本稿では,顔画像の認識可能性の尺度を提案し,主に認識可能なアイデンティティを用いて訓練されたディープニューラルネットワークによって実現された。
FAR=1e-5において,認識可能性を考慮した場合,単画像認識の誤り率を58%減少させることを示す。
論文 参考訳(メタデータ) (2021-06-08T05:25:03Z) - How Unique Is a Face: An Investigative Study [8.803279436922267]
本研究では,画像の解像度,特徴表現,データベースサイズ,年齢,性別などの要因が,実際の分布とインポスタ分布のKullback-Leibler分散によって示される特異性に与える影響について検討した。
特徴抽出アルゴリズムとしてVGGFace, VGG16, ResNet50, InceptionV3, MobileNet, DenseNet121 を用いる。
論文 参考訳(メタデータ) (2021-02-09T17:35:39Z) - Facial Expressions as a Vulnerability in Face Recognition [73.85525896663371]
本研究では,顔認識システムのセキュリティ脆弱性としての表情バイアスについて検討する。
本稿では,表情バイアスが顔認識技術の性能に与える影響を包括的に分析する。
論文 参考訳(メタデータ) (2020-11-17T18:12:41Z) - A survey of face recognition techniques under occlusion [4.10247419557141]
隠蔽された顔認識は、現実世界のアプリケーションに顔認識の潜在能力を最大限活用するために必須である。
本稿では,既存の顔認識手法が隠蔽問題にどのように対処するかを示し,これらを3つのカテゴリに分類する。
我々は、モチベーション、イノベーション、長所と短所、そして比較のための代表的アプローチのパフォーマンスを分析します。
論文 参考訳(メタデータ) (2020-06-19T20:44:02Z) - Occlusion-Adaptive Deep Network for Robust Facial Expression Recognition [56.11054589916299]
本研究では,隠蔽領域から腐敗した特徴を発見・破棄するためのランドマーク誘導型アテンションブランチを提案する。
注意マップが最初に作成され、特定の顔部が閉鎖されているかどうかを示し、我々のモデルを非閉鎖領域に誘導する。
これにより、顔が部分的に隠されている場合でも、表情認識システムが回復することができる。
論文 参考訳(メタデータ) (2020-05-12T20:42:55Z) - Dual-Attention GAN for Large-Pose Face Frontalization [59.689836951934694]
本稿では,フォトリアリスティック顔フロンダル化のためのDA-GAN(Dual-Attention Generative Adversarial Network)を提案する。
具体的には、ローカル機能と長距離依存関係を統合するために、自己アテンションベースのジェネレータが導入された。
顔領域の局所的特徴を強調するために,新しい顔認識に基づく識別器を適用した。
論文 参考訳(メタデータ) (2020-02-17T20:00:56Z) - Investigating the Impact of Inclusion in Face Recognition Training Data
on Individual Face Identification [93.5538147928669]
最新のオープンソースの顔認識システムであるArcFaceを、100万枚以上の散らばった画像を用いた大規模な顔識別実験で監査する。
モデルのトレーニングデータには79.71%、存在しない人には75.73%のランク1顔認証精度がある。
論文 参考訳(メタデータ) (2020-01-09T15:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。