論文の概要: Unique Faces Recognition in Videos
- arxiv url: http://arxiv.org/abs/2006.05713v1
- Date: Wed, 10 Jun 2020 08:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:51:31.844830
- Title: Unique Faces Recognition in Videos
- Title(参考訳): ビデオにおけるユニークな顔認識
- Authors: Jiahao Huo and Terence L van Zyl
- Abstract要約: 本稿では,距離学習法と類似度ランキングモデルを用いたビデオの顔認識に取り組む。
使用されるデータセットは、ビデオにおける顔認識の問題を調べるために設計されたYouTube Face Databaseである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles face recognition in videos employing metric learning
methods and similarity ranking models. The paper compares the use of the
Siamese network with contrastive loss and Triplet Network with triplet loss
implementing the following architectures: Google/Inception architecture, 3D
Convolutional Network (C3D), and a 2-D Long short-term memory (LSTM) Recurrent
Neural Network. We make use of still images and sequences from videos for
training the networks and compare the performances implementing the above
architectures. The dataset used was the YouTube Face Database designed for
investigating the problem of face recognition in videos. The contribution of
this paper is two-fold: to begin, the experiments have established 3-D
Convolutional networks and 2-D LSTMs with the contrastive loss on image
sequences do not outperform Google/Inception architecture with contrastive loss
in top $n$ rank face retrievals with still images. However, the 3-D Convolution
networks and 2-D LSTM with triplet Loss outperform the Google/Inception with
triplet loss in top $n$ rank face retrievals on the dataset; second, a Support
Vector Machine (SVM) was used in conjunction with the CNNs' learned feature
representations for facial identification. The results show that feature
representation learned with triplet loss is significantly better for n-shot
facial identification compared to contrastive loss. The most useful feature
representations for facial identification are from the 2-D LSTM with triplet
loss. The experiments show that learning spatio-temporal features from video
sequences is beneficial for facial recognition in videos.
- Abstract(参考訳): 本稿では,距離学習法と類似度ランキングモデルを用いたビデオの顔認識に取り組む。
本稿では, google/inception architecture, 3d convolutional network (c3d), 2d long short-term memory (lstm) recurrent neural networkのアーキテクチャを比較検討した。
ネットワークのトレーニングには静止画像とビデオシーケンスを使用し、上記のアーキテクチャを実装した性能を比較する。
使用されるデータセットは、ビデオにおける顔認識の問題を調べるために設計されたYouTube Face Databaseである。
この論文の貢献は,まず3次元畳み込みネットワークと2次元LSTMを構築し,画像列における対照的な損失は,静止画像を用いたトップ$n$の顔検索において対照的な損失でGoogle/Inceptionアーキテクチャを上回りません。
しかし、3次元畳み込みネットワークと3重項損失を持つ2次元LSTMは、データセット上の上位$n$ランクの顔検索において、Google/Inceptionを上回り、第2に、CNNが学習した顔識別のための特徴表現と組み合わせて、サポートベクトルマシン(SVM)を使用した。
その結果,3重項損失で学習した特徴表現は,比較的損失よりもnショット顔認証の方が有意に優れていることがわかった。
顔の識別に最も有用な特徴は3重項損失を有する2次元LSTMである。
実験の結果,ビデオ系列からの時空間的特徴の学習は,映像の顔認識に有用であることが示唆された。
関連論文リスト
- SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Unlocking Masked Autoencoders as Loss Function for Image and Video
Restoration [19.561055022474786]
我々は、損失の可能性を研究し、学習した損失関数は、画像とビデオの復元のためのニューラルネットワークの学習能力を高める」。
1)タスク適応型MAEからネイティブMAEへ、2)イメージタスクからビデオタスクへ、3)トランスフォーマー構造から畳み込みニューラルネットワーク構造へ。
論文 参考訳(メタデータ) (2023-03-29T02:41:08Z) - Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D
Images [82.5266467869448]
Inverse Graphics Capsule Network (IGC-Net) を提案する。
IGC-Netはまずオブジェクトをセマンティック一貫性のある部分レベルの記述の集合に分解し、それらをオブジェクトレベルの記述に組み立てて階層を構築する。
論文 参考訳(メタデータ) (2023-03-20T06:32:55Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Face Recognition Using $Sf_{3}CNN$ With Higher Feature Discrimination [14.26473757011463]
本稿では,ビデオの顔認識に$Sf_3CNN$というフレームワークを提案する。
このフレームワークは3次元Residual Network(3D Resnet)とA-Softmaxの損失を利用してビデオの顔認識を行う。
CVBLビデオデータベースでは、以前の97%の3D ResNetsに比べて99.10%の精度が向上している。
論文 参考訳(メタデータ) (2021-02-02T09:47:31Z) - Synthetic Expressions are Better Than Real for Learning to Detect Facial
Actions [4.4532095214807965]
提案手法は,各映像フレームから顔の3次元形状を再構成し,その3次元メッシュを標準視に整列し,GANネットワークをトレーニングして,顔のアクションユニットによる新規画像の合成を行う。
このネットワークは、合成された表情を訓練し、実際の表情を訓練し、現在の最先端のアプローチを上回った。
論文 参考訳(メタデータ) (2020-10-21T13:11:45Z) - Multi-channel Deep 3D Face Recognition [4.726009758066045]
2次元顔認証の精度は、ポーズ、照明、メイクアップ、表情の変化によって依然として疑問視されている。
本稿では,3次元顔データに基づく顔認識のためのマルチチャネルディープ3次元顔ネットワークを提案する。
マルチチャネル深部3次元顔ネットワークの顔認識精度は98.6。
論文 参考訳(メタデータ) (2020-09-30T15:29:05Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z) - CAKES: Channel-wise Automatic KErnel Shrinking for Efficient 3D Networks [87.02416370081123]
3次元畳み込みニューラルネットワーク(CNN)は,映像解析やボリューム画像認識などの3次元シーン理解に広く応用されている。
本稿では,標準的な3Dコンボリューションを一連の経済活動に縮小させることで,効率的な3D学習を実現するために,チャネルワイドなKErnel Shrinking(CAKES)を提案する。
論文 参考訳(メタデータ) (2020-03-28T14:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。