論文の概要: Temporal Convolution Networks with Positional Encoding for Evoked
Expression Estimation
- arxiv url: http://arxiv.org/abs/2106.08596v1
- Date: Wed, 16 Jun 2021 07:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 04:58:14.026943
- Title: Temporal Convolution Networks with Positional Encoding for Evoked
Expression Estimation
- Title(参考訳): 位置符号化を用いた時間畳み込みネットワークによる表情推定
- Authors: VanThong Huynh, Guee-Sang Lee, Hyung-Jeong Yang, Soo-Huyng Kim
- Abstract要約: 本稿では、ビデオから誘発された表情を予測することを目的とした、EEV(Evoked Expressions from Videos)チャレンジに対するアプローチを提案する。
我々は,映像中のタイムスタンプの深部表現を抽出するために,コンピュータビジョンと音声信号における大規模データセットの事前学習モデルを利用する。
我々は,2021年のPearson相関係数0.05477を用いて,脳波課題における最先端の成果を得た。
- 参考スコア(独自算出の注目度): 4.915340974750594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an approach for Evoked Expressions from Videos (EEV)
challenge, which aims to predict evoked facial expressions from video. We take
advantage of pre-trained models on large-scale datasets in computer vision and
audio signals to extract the deep representation of timestamps in the video. A
temporal convolution network, rather than an RNN like architecture, is used to
explore temporal relationships due to its advantage in memory consumption and
parallelism. Furthermore, to address the missing annotations of some
timestamps, positional encoding is employed to ensure continuity of input data
when discarding these timestamps during training. We achieved state-of-the-art
results on the EEV challenge with a Pearson correlation coefficient of 0.05477,
the first ranked performance in the EEV 2021 challenge.
- Abstract(参考訳): 本稿では、ビデオから誘発された表情を予測することを目的とした、EEV(Evoked Expressions from Videos)チャレンジに対するアプローチを提案する。
我々は,映像中のタイムスタンプの深部表現を抽出するために,コンピュータビジョンと音声信号における大規模データセットの事前学習モデルを利用する。
RNNのようなアーキテクチャではなく、時間的畳み込みネットワークは、メモリ消費と並列性に利点があるため、時間的関係を探索するために使用される。
さらに、一部のタイムスタンプのアノテーションの欠如に対処するために、トレーニング中にこれらのタイムスタンプを破棄する際の入力データの連続性を保証するために位置符号化を用いる。
我々はPearson相関係数 0.05477 でEEV 2021 チャレンジの最先端結果を得た。
関連論文リスト
- Streaming Factor Trajectory Learning for Temporal Tensor Decomposition [33.18423605559094]
時相テンソル分解のためのストリーム係数軌道学習を提案する。
我々はガウス過程(GP)を用いて因子の軌道をモデル化し、その時間的進化を柔軟に推定する。
合成タスクと実世界のアプリケーションの両方において、SFTLの利点を示してきた。
論文 参考訳(メタデータ) (2023-10-25T21:58:52Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery
Generation [10.799980374791316]
時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。
本稿では,既存のテキスト・ビデオ・グラウンドリングモデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的グラウンドディングフレームワークであるEVOQUERを提案する。
論文 参考訳(メタデータ) (2021-09-10T00:30:36Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - Multiple Instance-Based Video Anomaly Detection using Deep Temporal
Encoding-Decoding [5.255783459833821]
本稿では,監視ビデオにおける異常検出のための時間的深部符号化復号化手法を提案する。
提案手法はトレーニング期間中に異常ビデオクリップと正常ビデオクリップの両方を使用する。
提案手法は,ビデオ監視アプリケーションにおける異常検出の最先端ソリューションと同等かそれ以上に動作することを示す。
論文 参考訳(メタデータ) (2020-07-03T08:22:42Z) - Conditional Mutual information-based Contrastive Loss for Financial Time
Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。
本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-18T15:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。