論文の概要: Ear2Face: Deep Biometric Modality Mapping
- arxiv url: http://arxiv.org/abs/2006.01943v1
- Date: Tue, 2 Jun 2020 21:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 00:49:03.088284
- Title: Ear2Face: Deep Biometric Modality Mapping
- Title(参考訳): ear2face: ディープバイオメトリックモダリティマッピング
- Authors: Dogucan Yaman, Fevziye Irem Eyiokur, Haz{\i}m Kemal Ekenel
- Abstract要約: 生体情報間のマッピングを学習するエンド・ツー・エンドのディープニューラルネットワークモデルを提案する。
この問題を画像と画像のペア変換タスクとして定式化し、耳と顔のペアのデータセットを収集した。
我々は、特にFERETデータセットにおいて、耳画像入力から視覚的に魅力的な顔画像を生成する、非常に有望な結果を得た。
- 参考スコア(独自算出の注目度): 9.560980936110234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the correlation between different visual biometric
modalities. For this purpose, we present an end-to-end deep neural network
model that learns a mapping between the biometric modalities. Namely, our goal
is to generate a frontal face image of a subject given his/her ear image as the
input. We formulated the problem as a paired image-to-image translation task
and collected datasets of ear and face image pairs from the Multi-PIE and FERET
datasets to train our GAN-based models. We employed feature reconstruction and
style reconstruction losses in addition to adversarial and pixel losses. We
evaluated the proposed method both in terms of reconstruction quality and in
terms of person identification accuracy. To assess the generalization
capability of the learned mapping models, we also run cross-dataset
experiments. That is, we trained the model on the FERET dataset and tested it
on the Multi-PIE dataset and vice versa. We have achieved very promising
results, especially on the FERET dataset, generating visually appealing face
images from ear image inputs. Moreover, we attained a very high cross-modality
person identification performance, for example, reaching 90.9% Rank-10
identification accuracy on the FERET dataset.
- Abstract(参考訳): 本稿では,異なる視覚的生体特性の相関について検討する。
この目的のために,生体情報間のマッピングを学習するエンドツーエンドのディープニューラルネットワークモデルを提案する。
本研究の目的は,被験者の耳像を入力として前面画像を生成することである。
我々はこの問題を画像対画像翻訳タスクとして定式化し、マルチパイおよびフェレートデータセットから耳と顔画像ペアのデータセットを収集し、ganベースのモデルをトレーニングした。
特徴復元とスタイル復元の損失に加えて,逆行やピクセル損失も採用した。
提案手法は再建品質と個人識別精度の両方の観点から評価した。
学習したマッピングモデルの一般化能力を評価するため、クロスデータセット実験も実施する。
すなわち、ferETデータセット上でモデルをトレーニングし、Multi-PIEデータセット上でテストしました。
我々は、特にFERETデータセットで非常に有望な結果を得ており、耳画像入力から視覚的に魅力的な顔画像を生成する。
さらに,feretデータセットで90.9%のランク10識別精度に達するなど,非常に高いクロスモーダルな人物識別性能を達成した。
関連論文リスト
- Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy [3.2381492754749632]
本稿では,非構造化データと構造化データを用いて顔の麻痺を検知する多モード融合に基づくディープラーニングモデルを提案する。
我々のモデルはリコールスコアの減少を犠牲にして精度を77.05にわずかに改善した。
論文 参考訳(メタデータ) (2024-05-26T09:16:34Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for
Facial Expression Recognition [11.820043444385432]
Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを導入する。
初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。
微調整段階において、より広範囲の正のサンプルを用いてモデルを強化する混合教師付きコントラスト学習プロセスを導入する。
論文 参考訳(メタデータ) (2024-01-14T10:30:32Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z) - Deep Multi-Facial Patches Aggregation Network For Facial Expression
Recognition [5.735035463793008]
深層多面的パッチアグリゲーションネットワークに基づく顔表情認識(FER)のアプローチを提案する。
ディープ機能は、ディープサブネットワークを使用して顔のパッチから学習され、表現分類のために1つのディープアーキテクチャに集約される。
論文 参考訳(メタデータ) (2020-02-20T17:57:06Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。