論文の概要: Improving Depression estimation from facial videos with face alignment,
training optimization and scheduling
- arxiv url: http://arxiv.org/abs/2212.06400v1
- Date: Tue, 13 Dec 2022 06:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:35:04.848378
- Title: Improving Depression estimation from facial videos with face alignment,
training optimization and scheduling
- Title(参考訳): 顔アライメント、トレーニング最適化、スケジューリングによる顔画像の抑うつ推定の改善
- Authors: Manuel Lage Ca\~nellas, Constantino \'Alvarez Casado, Le Nguyen,
Miguel Bordallo L\'opez
- Abstract要約: 本稿では2つの顔アライメント手法を用いて静的空間情報のみを使用するResNet-50に基づく2つのモデルを提案する。
ベンチマークデータセットを用いた実験では,単一ストリームやビデオの高度時間モデルと類似した結果が得られる一方,2つの異なるストリームのスコアレベルの融合は最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models have shown promising results in recognizing depressive
states using video-based facial expressions. While successful models typically
leverage using 3D-CNNs or video distillation techniques, the different use of
pretraining, data augmentation, preprocessing, and optimization techniques
across experiments makes it difficult to make fair architectural comparisons.
We propose instead to enhance two simple models based on ResNet-50 that use
only static spatial information by using two specific face alignment methods
and improved data augmentation, optimization, and scheduling techniques. Our
extensive experiments on benchmark datasets obtain similar results to
sophisticated spatio-temporal models for single streams, while the score-level
fusion of two different streams outperforms state-of-the-art methods. Our
findings suggest that specific modifications in the preprocessing and training
process result in noticeable differences in the performance of the models and
could hide the actual originally attributed to the use of different neural
network architectures.
- Abstract(参考訳): 深層学習モデルは、ビデオベースの表情を用いた抑うつ状態の認識において有望な結果を示している。
成功したモデルは一般的に3d-cnnsまたはビデオ蒸留技術を利用するが、プリトレーニング、データ拡張、プリプロセッシング、および実験全体にわたる最適化技術が異なるため、公正な比較を行うことは困難である。
そこで本稿では,ResNet-50をベースとした2つの簡易モデルを提案する。2つの顔アライメント手法と,データ拡張,最適化,スケジューリング技術の改良により,静的空間情報のみを使用する。
ベンチマークデータセットに関する広範な実験は、シングルストリームの洗練された時空間モデルと同様の結果を得る一方、2つの異なるストリームのスコアレベルの融合は最先端の手法よりも優れている。
この結果から,前処理およびトレーニングプロセスの特定の変更が,モデルの性能に顕著な違いをもたらすことが示唆され,ニューラルネットワークアーキテクチャの違いによる実際の原因を隠蔽する可能性が示唆された。
関連論文リスト
- VDPI: Video Deblurring with Pseudo-inverse Modeling [8.91065618315995]
ビデオデブロワーリングは、ぼやけやうるさい観察からシャープなシーケンスを復元することを目的とした課題である。
画像形成モデルは、従来のモデルベースの手法において重要な役割を担い、可能な解決策を制約する。
本稿では,ぼかしの擬似逆数を用いて,画像形成モデルの知識を深層学習ネットワークに導入することを提案する。
論文 参考訳(メタデータ) (2024-09-01T16:44:21Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Diffusion Model for Dense Matching [34.13580888014]
ペア画像間の密接な対応を確立する目的は、データ項と先行項の2つの項からなる。
我々はDiffMatchを提案する。DiffMatchは、データと事前条件の両方を明示的にモデル化する新しい条件付き拡散ベースのフレームワークである。
実験の結果,既存の手法に比べて,提案手法の大幅な性能向上が示された。
論文 参考訳(メタデータ) (2023-05-30T14:58:24Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - MaxDropoutV2: An Improved Method to Drop out Neurons in Convolutional
Neural Networks [0.39146761527401425]
我々はMaxDropoutV2と呼ばれる教師付き正規化手法の改良版を提案する。
その結果、モデルが標準バージョンよりも高速に動作し、ほとんどの場合、より正確な結果が得られます。
論文 参考訳(メタデータ) (2022-03-05T13:41:56Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Deep Optimized Priors for 3D Shape Modeling and Reconstruction [38.79018852887249]
3Dモデリングと再構築のための新しい学習フレームワークを紹介します。
提案手法は,事前訓練によって制約された障壁を効果的に破壊することを示す。
論文 参考訳(メタデータ) (2020-12-14T03:56:31Z) - Scalable Second Order Optimization for Deep Learning [34.12384996822749]
本稿では,第2次プレコンディショニング手法のスケーラブルな実装について述べる(第2に,完全行列 Adagrad の変種)。
我々の新しい設計は、多コアCPUと複数のアクセラレーションユニットを組み合わせた深層モデルのトレーニングに、一般的な異種ハードウェアアーキテクチャを効果的に活用する。
本稿では,変換器を用いた機械翻訳,BERTによる言語モデリング,Criteoによるクリックスルー率予測,ResNet-50によるImageNetの画像分類など,非常に大規模な学習課題における最先端の学習性能を示す。
論文 参考訳(メタデータ) (2020-02-20T20:51:33Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。