論文の概要: Facial Expression Analysis Using Decomposed Multiscale Spatiotemporal
Networks
- arxiv url: http://arxiv.org/abs/2203.11111v1
- Date: Mon, 21 Mar 2022 16:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:00:16.995760
- Title: Facial Expression Analysis Using Decomposed Multiscale Spatiotemporal
Networks
- Title(参考訳): 分解型時空間ネットワークを用いた表情解析
- Authors: Wheidima Carneiro de Melo, Eric Granger, Miguel Bordallo Lopez
- Abstract要約: ビデオによる表情の分析は、痛みなどの個人の健康状態の推測にますます応用されている。
既存のアプローチの中で、マルチスケール処理のための構造からなるディープラーニングモデルは、顔のダイナミクスを符号化する強力な可能性を持っている。
マルチスケール特徴抽出のための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 11.75862535031727
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video-based analysis of facial expressions has been increasingly applied to
infer health states of individuals, such as depression and pain. Among the
existing approaches, deep learning models composed of structures for multiscale
spatiotemporal processing have shown strong potential for encoding facial
dynamics. However, such models have high computational complexity, making for a
difficult deployment of these solutions. To address this issue, we introduce a
new technique to decompose the extraction of multiscale spatiotemporal
features. Particularly, a building block structure called Decomposed Multiscale
Spatiotemporal Network (DMSN) is presented along with three variants: DMSN-A,
DMSN-B, and DMSN-C blocks. The DMSN-A block generates multiscale
representations by analyzing spatiotemporal features at multiple temporal
ranges, while the DMSN-B block analyzes spatiotemporal features at multiple
ranges, and the DMSN-C block analyzes spatiotemporal features at multiple
spatial sizes. Using these variants, we design our DMSN architecture which has
the ability to explore a variety of multiscale spatiotemporal features,
favoring the adaptation to different facial behaviors. Our extensive
experiments on challenging datasets show that the DMSN-C block is effective for
depression detection, whereas the DMSN-A block is efficient for pain
estimation. Results also indicate that our DMSN architecture provides a
cost-effective solution for expressions that range from fewer facial variations
over time, as in depression detection, to greater variations, as in pain
estimation.
- Abstract(参考訳): ビデオに基づく表情の分析は、うつや痛みなどの個人の健康状態の推測にますます応用されている。
既存のアプローチの中で,マルチスケール時空間処理のための構造からなるディープラーニングモデルは,顔力学を符号化する強力な可能性を示している。
しかし、そのようなモデルは計算の複雑さが高く、これらのソリューションの展開が困難である。
この問題に対処するために,多スケール時空間特徴の抽出を分解する新しい手法を提案する。
特に, DMSN-A, DMSN-B, DMSN-Cブロックの3つの変種とともに, DMSN (Decomposed Multiscale Spatiotemporal Network) と呼ばれるビルディングブロック構造を示す。
DMSN-Aブロックは複数の時間領域における時空間特徴を解析し、DMSN-Bブロックは複数の時間領域における時空間特徴を解析し、DMSN-Cブロックは複数の空間サイズにおける時空間特徴を解析してマルチスケール表現を生成する。
これらの変種を用いて、我々はdmsnアーキテクチャを設計し、様々な時空間的特徴を探索し、異なる顔の行動に適応する能力を有する。
DMSN-Cブロックは抑うつ検出に有効であるのに対し,DMSN-Aブロックは痛み推定に有効であることを示す。
また, DMSNアーキテクチャは, うつ病検出などの表情変化の時間的変化の少ない表現から, 痛み推定のような変化の大きい表現に対して, 費用対効果の高いソリューションを提供することを示した。
関連論文リスト
- A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
ディープニューラルネットワークは、アンダーサンプル計測から高忠実度画像を再構成する大きな可能性を示している。
我々のモデルは、離散化に依存しないアーキテクチャであるニューラル演算子に基づいている。
我々の推論速度は拡散法よりも1,400倍速い。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - PMSN: A Parallel Multi-compartment Spiking Neuron for Multi-scale Temporal Processing [22.1268533721837]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率の高い計算システムを実現する大きな可能性を秘めている。
PMSN(Parallel Multi-compartment Spiking Neuron)と呼ばれる新しいスパイキングニューロンモデルを提案する。
PMSNは、複数の相互作用するサブ構造を組み込んで生物学的ニューロンをエミュレートし、サブ構造数の柔軟な調整を可能にする。
論文 参考訳(メタデータ) (2024-08-27T09:47:46Z) - Adaptive Latent Diffusion Model for 3D Medical Image to Image
Translation: Multi-modal Magnetic Resonance Imaging Study [4.3536336830666755]
医用画像解析において,マルチモーダル画像は包括的評価において重要な役割を担っている。
臨床実践では、スキャンコスト、スキャン時間制限、安全性考慮などの理由から、複数のモダリティを取得することは困難である。
本稿では,3次元医用画像のイメージ・ツー・イメージ翻訳において,パッチ・トリッピングを伴わない切り換え可能なブロックを利用するモデルを提案する。
論文 参考訳(メタデータ) (2023-11-01T03:22:57Z) - Multi-stage Factorized Spatio-Temporal Representation for RGB-D Action
and Gesture Recognition [30.975823858419965]
我々は、RGB-Dアクションとジェスチャー認識のためのMFST(Multi-stage Factorized-Trans)と呼ばれる革新的なアーキテクチャを提案する。
MFSTモデルは、3次元差分コンステム(CDC-Stem)モジュールと複数の分解時間段階から構成される。
論文 参考訳(メタデータ) (2023-08-23T08:49:43Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - Multitask Brain Tumor Inpainting with Diffusion Models: A Methodological
Report [0.0]
インペイントアルゴリズムは、入力画像の1つ以上の領域を変更することができるDL生成モデルのサブセットである。
これらのアルゴリズムの性能は、その限られた出力量のために、しばしば準最適である。
拡散確率モデル(DDPM)は、GANに匹敵する品質の結果を生成することができる、最近導入された生成ネットワークのファミリーである。
論文 参考訳(メタデータ) (2022-10-21T17:13:14Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - CMS-LSTM: Context-Embedding and Multi-Scale Spatiotemporal-Expression
LSTM for Video Prediction [19.60644766914721]
我々は,CMS-LSTMを用いてコンテキスト相関とマルチスケール時流を抽出する。
新たに導入されたブロックは、他の時間モデル(例えば、PredRNN、SACon-vLSTM)にもビデオ予測のための代表的特徴を提供する。
パラメータを減らして、MotionExpressionとTaxiのメトリクスに関する最先端の結果に到達します。
論文 参考訳(メタデータ) (2021-02-06T14:24:40Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - A Comprehensive Study on Temporal Modeling for Online Action Detection [50.558313106389335]
オンライン行動検出(OAD)は実用的だが難しい課題であり、近年注目を集めている。
本稿では,4種類の時間的モデリング手法を含むOADの時間的モデリングに関する総合的研究を提案する。
本稿では,THUMOS-14 と TVSeries に対して,近年の最先端手法よりも大きなマージンを有するハイブリッド時間モデルを提案する。
論文 参考訳(メタデータ) (2020-01-21T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。