論文の概要: Revisiting Facial Key Point Detection: An Efficient Approach Using Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2205.07121v1
- Date: Sat, 14 May 2022 19:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 14:02:14.194669
- Title: Revisiting Facial Key Point Detection: An Efficient Approach Using Deep
Neural Networks
- Title(参考訳): 顔のキーポイント検出の再検討:ディープニューラルネットワークを用いた効率的なアプローチ
- Authors: Prathima Dileep, Bharath Kumar Bolla, Sabeesh Ethiraj
- Abstract要約: モデルサイズ,パラメータ,推論時間の観点から,効率的なディープラーニングモデルを構築した。
MobileNetV2アーキテクチャは最低のRMSEと推論時間を生み出した。
手動で最適化されたCNNアーキテクチャは、Auto Kerasのチューニングアーキテクチャと同様に実行された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Facial landmark detection is a widely researched field of deep learning as
this has a wide range of applications in many fields. These key points are
distinguishing characteristic points on the face, such as the eyes center, the
eye's inner and outer corners, the mouth center, and the nose tip from which
human emotions and intent can be explained. The focus of our work has been
evaluating transfer learning models such as MobileNetV2 and NasNetMobile,
including custom CNN architectures. The objective of the research has been to
develop efficient deep learning models in terms of model size, parameters, and
inference time and to study the effect of augmentation imputation and
fine-tuning on these models. It was found that while augmentation techniques
produced lower RMSE scores than imputation techniques, they did not affect the
inference time. MobileNetV2 architecture produced the lowest RMSE and inference
time. Moreover, our results indicate that manually optimized CNN architectures
performed similarly to Auto Keras tuned architecture. However, manually
optimized architectures yielded better inference time and training curves.
- Abstract(参考訳): 顔の目印検出は、多くの分野で幅広い応用があるため、ディープラーニングの広く研究されている分野である。
これらのキーポイントは、目の中心、眼の内角と外角、口の中心、人間の感情や意図が説明できる鼻の先端など、顔の特徴的な点を区別している。
我々の研究の焦点は、カスタムCNNアーキテクチャを含むMobileNetV2やNasNetMobileのようなトランスファー学習モデルを評価することである。
本研究の目的は, モデルサイズ, パラメータ, 推論時間の観点から効率的な深層学習モデルを開発し, これらのモデルに対する拡張計算と微調整の効果を研究することである。
その結果, 拡張法ではインプテーション法よりもrmseスコアが低かったが, 推定時間には影響しなかった。
MobileNetV2アーキテクチャは最低のRMSEと推論時間を生み出した。
さらに,この結果から,手動で最適化したCNNアーキテクチャが,オートケラス調律アーキテクチャと同じような性能を示した。
しかし、手動で最適化したアーキテクチャは、より良い推論時間とトレーニング曲線をもたらした。
関連論文リスト
- Deep Learning Approaches for Human Action Recognition in Video Data [0.8080830346931087]
本研究は、この課題に対処するために、様々なディープラーニングモデルの詳細な分析を行う。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Two-Stream ConvNetsに焦点を当てる。
本研究の結果は,頑健な人間の行動認識を実現するための複合モデルの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-03-11T15:31:25Z) - Efficient and Accurate Hyperspectral Image Demosaicing with Neural Network Architectures [3.386560551295746]
本研究では,ハイパースペクトル画像復調におけるニューラルネットワークアーキテクチャの有効性について検討した。
様々なネットワークモデルと修正を導入し、それらを従来の手法や既存の参照ネットワークアプローチと比較する。
その結果、我々のネットワークは、例外的な性能を示す両方のデータセットにおいて、参照モデルよりも優れるか、一致していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T08:02:49Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Comparison Analysis of Traditional Machine Learning and Deep Learning
Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。
まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。
次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文 参考訳(メタデータ) (2022-04-11T11:34:43Z) - Neural Architecture Search for Speech Emotion Recognition [72.1966266171951]
本稿では,SERモデルの自動構成にニューラルアーキテクチャサーチ(NAS)技術を適用することを提案する。
NASはモデルパラメータサイズを維持しながらSER性能(54.89%から56.28%)を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-31T10:16:10Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Scene Understanding for Autonomous Driving [0.0]
Detectron2で提示されたRetinaNet, Faster R-CNN, Mask R-CNNの異なる構成の挙動を検討する。
関心のあるデータセット上でこれらのモデルを微調整した後、パフォーマンスの大幅な改善を観察します。
文脈外のデータセットを用いて異常な状況下で推論を行い、興味深い結果を示す。
論文 参考訳(メタデータ) (2021-05-11T09:50:05Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Inferring Convolutional Neural Networks' accuracies from their
architectural characterizations [0.0]
CNNのアーキテクチャと性能の関係について検討する。
本稿では,2つのコンピュータビジョンに基づく物理問題において,その特性がネットワークの性能を予測できることを示す。
我々は機械学習モデルを用いて、トレーニング前にネットワークが一定のしきい値精度よりも優れた性能を発揮できるかどうかを予測する。
論文 参考訳(メタデータ) (2020-01-07T16:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。