論文の概要: Temporal Stochastic Softmax for 3D CNNs: An Application in Facial
Expression Recognition
- arxiv url: http://arxiv.org/abs/2011.05227v1
- Date: Tue, 10 Nov 2020 16:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:55:32.972169
- Title: Temporal Stochastic Softmax for 3D CNNs: An Application in Facial
Expression Recognition
- Title(参考訳): 3次元cnnにおける時間的確率的ソフトマックス : 表情認識への応用
- Authors: Th\'eo Ayral, Marco Pedersoli, Simon Bacon and Eric Granger
- Abstract要約: 本稿では,3次元CNNの効率的なビデオベーストレーニング戦略を提案する。
ソフトマックスの時間プーリングと、最も関連するトレーニングクリップを選択するための重み付けサンプリング機構に依存している。
- 参考スコア(独自算出の注目度): 11.517316695930596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep learning models for accurate spatiotemporal recognition of
facial expressions in videos requires significant computational resources. For
practical reasons, 3D Convolutional Neural Networks (3D CNNs) are usually
trained with relatively short clips randomly extracted from videos. However,
such uniform sampling is generally sub-optimal because equal importance is
assigned to each temporal clip. In this paper, we present a strategy for
efficient video-based training of 3D CNNs. It relies on softmax temporal
pooling and a weighted sampling mechanism to select the most relevant training
clips. The proposed softmax strategy provides several advantages: a reduced
computational complexity due to efficient clip sampling, and an improved
accuracy since temporal weighting focuses on more relevant clips during both
training and inference. Experimental results obtained with the proposed method
on several facial expression recognition benchmarks show the benefits of
focusing on more informative clips in training videos. In particular, our
approach improves performance and computational cost by reducing the impact of
inaccurate trimming and coarse annotation of videos, and heterogeneous
distribution of visual information across time.
- Abstract(参考訳): ビデオにおける表情の正確な時空間認識のためのディープラーニングモデルの訓練には、かなりの計算資源が必要である。
実用的な理由から、3D畳み込みニューラルネットワーク(3D CNN)は通常、ビデオからランダムに抽出された比較的短いクリップで訓練される。
しかしながら、このような一様サンプリングは一般に、各時間クリップに等しい重要性が割り当てられるため、準最適である。
本稿では,3次元CNNの効率的なビデオベーストレーニング戦略を提案する。
ソフトマックスの時間プーリングと、最も関連するトレーニングクリップを選択するための重み付けサンプリング機構に依存している。
効率的なクリップサンプリングによる計算複雑性の低減と、トレーニングと推論の両方において、時間重み付けがより適切なクリップにフォーカスするため、精度の向上である。
提案手法を用いた複数の表情認識ベンチマークによる実験結果から,訓練ビデオにおけるより有意義なクリップに着目した効果が得られた。
特に,不正確なトリミングやビデオの粗末なアノテーションの影響を低減し,時間にまたがる視覚情報の異種分布を低減し,性能と計算コストを向上させる。
関連論文リスト
- PESFormer: Boosting Macro- and Micro-expression Spotting with Direct Timestamp Encoding [19.006364251731753]
PESFormerは、ポイント・ツー・インターバル式スポッティングを実現するビジョン・トランスフォーマーアーキテクチャに基づくモデルである。
PESFormerは、アンカーを置き換えるために直接タイムスタンプ符号化(DTE)アプローチを採用し、各タイムスタンプのバイナリ分類を可能にする。
我々は、未編集のトレーニングビデオをゼロパディングして、一定期間の均一で長いビデオを作成する戦略を実装した。
論文 参考訳(メタデータ) (2024-10-24T12:45:25Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Optimization Planning for 3D ConvNets [123.43419144051703]
3次元畳み込みニューラルネットワーク(3D ConvNets)を最適に学習するのは簡単ではない。
パスを一連のトレーニング“状態”に分解し、各状態におけるハイパーパラメータ、例えば学習率と入力クリップの長さを指定する。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
論文 参考訳(メタデータ) (2022-01-11T16:13:31Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。