論文の概要: Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition
- arxiv url: http://arxiv.org/abs/2002.03157v4
- Date: Wed, 19 Aug 2020 11:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:55:16.845484
- Title: Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition
- Title(参考訳): 空間認識の4次元認識における顔以外の読み方
- Authors: Muzammil Behzad, Nhat Vo, Xiaobai Li, Guoying Zhao
- Abstract要約: 自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。
まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。
次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
- 参考スコア(独自算出の注目度): 55.15661254072032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a sparsity-aware deep network for automatic 4D
facial expression recognition (FER). Given 4D data, we first propose a novel
augmentation method to combat the data limitation problem for deep learning.
This is achieved by projecting the input data into RGB and depth map images and
then iteratively performing randomized channel concatenation. Encoded in the
given 3D landmarks, we also introduce an effective way to capture the facial
muscle movements from three orthogonal plans (TOP), the TOP-landmarks over
multi-views. Importantly, we then present a sparsity-aware deep network to
compute the sparse representations of convolutional features over multi-views.
This is not only effective for a higher recognition accuracy but is also
computationally convenient. For training, the TOP-landmarks and sparse
representations are used to train a long short-term memory (LSTM) network. The
refined predictions are achieved when the learned features collaborate over
multi-views. Extensive experimental results achieved on the BU-4DFE dataset
show the significance of our method over the state-of-the-art methods by
reaching a promising accuracy of 99.69% for 4D FER.
- Abstract(参考訳): 本稿では,4次元表情自動認識(fer)のための分散認識深層ネットワークを提案する。
4次元データに対して,まず,深層学習におけるデータ制限問題に対処する新しい拡張法を提案する。
入力データをRGBおよび深度マップイメージに投影し、ランダム化されたチャネル結合を反復的に実行する。
得られた3次元ランドマークにエンコードされた3つの直交平面(TOP)から顔の筋肉の動きを多視点で捉える効果的な方法も導入した。
重要なのは,マルチビュー上の畳み込み特徴のスパース表現を計算するために,スパース性を考慮したディープネットワークを提案することだ。
これは高い認識精度に有効であるだけでなく、計算上も便利である。
トレーニングでは、長い短期記憶(LSTM)ネットワークをトレーニングするためにTOPランドマークとスパース表現を使用する。
洗練された予測は、学習した機能が複数ビューで協調して達成される。
BU-4DFEデータセットによる大規模な実験結果から,4D FERの99.69%の精度を達成し,最先端手法に対する本手法の意義が示された。
関連論文リスト
- Representing 3D sparse map points and lines for camera relocalization [1.2974519529978974]
軽量ニューラルネットワークが3Dポイントとラインの両方の特徴を表現するためにどのように学習できるかを示す。
テストにおいて,本手法は,最先端の学習手法に対する最も顕著な向上を図っている。
論文 参考訳(メタデータ) (2024-02-28T03:07:05Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Implicit Shape and Appearance Priors for Few-Shot Full Head
Reconstruction [17.254539604491303]
本稿では,数発のフル3次元頭部再構成の問題点に対処する。
我々は、座標に基づく表現に先立って確率的形状と外観を組み込むことにより、これを達成した。
我々はH3DSデータセットを拡張し、60個の高解像度3Dフルヘッドスキャンと対応する画像とマスクを含む。
論文 参考訳(メタデータ) (2023-10-12T07:35:30Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network [35.03201732370496]
全方位画像からの一視点深度推定は、自律運転やシーン再構築といった幅広い応用で人気を博している。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
次に、人間の眼を模倣してデータセットから効果的に学習する、エンドツーエンドのマルチタスク学習ネットワークであるSegFuseを提案する。
論文 参考訳(メタデータ) (2022-02-16T11:56:31Z) - Magnifying Subtle Facial Motions for Effective 4D Expression Recognition [56.806738404887824]
3D面の流れをまず解析し、空間的な変形を捉えます。
これらの変形の得られた時間的進化は、拡大法に供給される。
本論文の主な貢献である後者では、感情分類性能を高める微妙な(隠れた)変形を明らかにすることができる。
論文 参考訳(メタデータ) (2021-05-05T20:47:43Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - SL-DML: Signal Level Deep Metric Learning for Multimodal One-Shot Action
Recognition [0.0]
埋め込み空間における近接探索に対する行動認識問題を削減するための計量学習手法を提案する。
我々は信号を画像にエンコードし、深い残差CNNを用いて特徴を抽出する。
結果として得られるエンコーダは特徴を埋め込み空間に変換し、より近い距離は類似の動作を符号化し、高い距離は異なる動作を符号化する。
論文 参考訳(メタデータ) (2020-04-23T11:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。