論文の概要: An optimized Capsule-LSTM model for facial expression recognition with
video sequences
- arxiv url: http://arxiv.org/abs/2106.07564v1
- Date: Thu, 27 May 2021 10:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-20 22:02:16.676525
- Title: An optimized Capsule-LSTM model for facial expression recognition with
video sequences
- Title(参考訳): ビデオシーケンスを用いた表情認識のためのキャプリル-LSTMモデル
- Authors: Siwei Liu (1), Yuanpeng Long (2), Gao Xu (1), Lijia Yang (1), Shimei
Xu (3), Xiaoming Yao (1,3), Kunxian Shu (1) ((1) School of Computer Science
and Technology, Chongqing Key Laboratory on Big Data for Bio Intelligence,
Chongqing University of Posts and Telecommunications, Chongqing, China, (2)
School of Economic Information Engineering, Southwestern University of
Finance and Economics, Chengdu, China, (3) 51yunjian.com, Hetie International
Square, Chengdu, Sichuan, China)
- Abstract要約: このモデルはカプセルエンコーダ、カプセルデコーダ、LSTMネットワークを含む3つのネットワークで構成されている。
MMIデータセットによる実験結果から,Capsule-LSTMモデルは映像表現認識の精度を効果的に向上できることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To overcome the limitations of convolutional neural network in the process of
facial expression recognition, a facial expression recognition model
Capsule-LSTM based on video frame sequence is proposed. This model is composed
of three networks includingcapsule encoders, capsule decoders and LSTM network.
The capsule encoder extracts the spatial information of facial expressions in
video frames. Capsule decoder reconstructs the images to optimize the network.
LSTM extracts the temporal information between video frames and analyzes the
differences in expression changes between frames. The experimental results from
the MMI dataset show that the Capsule-LSTM model proposed in this paper can
effectively improve the accuracy of video expression recognition.
- Abstract(参考訳): 表情認識における畳み込みニューラルネットワークの限界を克服するために,ビデオフレームシーケンスに基づく表情認識モデルCapsule-LSTMを提案する。
このモデルはカプセルエンコーダ、カプセルデコーダ、LSTMネットワークを含む3つのネットワークで構成されている。
カプセルエンコーダは、ビデオフレーム内の表情の空間情報を抽出する。
capsuleデコーダは画像を再構成してネットワークを最適化する。
LSTMは、ビデオフレーム間の時間情報を抽出し、フレーム間の表現変化の違いを分析する。
MMIデータセットによる実験結果から,本論文で提案するCapsule-LSTMモデルは,映像表現認識の精度を効果的に向上できることが示された。
関連論文リスト
- Decoding fMRI Data into Captions using Prefix Language Modeling [3.4328283704703866]
本稿では、DINOv2モデルによる画像の埋め込みを、対応するfMRI信号から予測することにより、脳信号を画像キャプションにデコードする方法を提案する。
また,fMRI信号から画像埋め込み空間への3次元畳み込みニューラルネットワークマッピングについて検討し,ボクセルの位置情報のより良い説明を行う。
論文 参考訳(メタデータ) (2025-01-05T15:06:25Z) - Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。
私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文 参考訳(メタデータ) (2024-12-31T13:39:08Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - An Image captioning algorithm based on the Hybrid Deep Learning
Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。
意味的なコンテキストと時間の複雑さを考慮に入れます。
提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文 参考訳(メタデータ) (2023-01-06T10:00:06Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Noisy-LSTM: Improving Temporal Awareness for Video Semantic Segmentation [29.00635219317848]
本稿では,エンドツーエンドで学習可能なNoisy-LSTMという新しいモデルを提案する。
また,ビデオシーケンスのフレームをノイズに置き換える,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:08:15Z) - NITS-VC System for VATEX Video Captioning Challenge 2020 [16.628598778804403]
ビデオの視覚的特徴を3次元畳み込みニューラルネットワーク(C3D)を用いて符号化するエンコーダデコーダに基づく手法を用いる。
我々のモデルは、それぞれ公開テストデータセットとプライベートテストデータセットでBLEUスコア0.20と0.22を達成することができる。
論文 参考訳(メタデータ) (2020-06-07T06:39:56Z) - Dual Convolutional LSTM Network for Referring Image Segmentation [18.181286443737417]
イメージセグメンテーションは、コンピュータビジョンと自然言語理解の共通点における問題である。
本稿では,この問題を解決するために,二重畳み込みLSTM(ConvLSTM)ネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-30T20:40:18Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。