論文の概要: Temporal Convolution Networks with Positional Encoding for Evoked
Expression Estimation
- arxiv url: http://arxiv.org/abs/2106.08596v1
- Date: Wed, 16 Jun 2021 07:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 04:58:14.026943
- Title: Temporal Convolution Networks with Positional Encoding for Evoked
Expression Estimation
- Title(参考訳): 位置符号化を用いた時間畳み込みネットワークによる表情推定
- Authors: VanThong Huynh, Guee-Sang Lee, Hyung-Jeong Yang, Soo-Huyng Kim
- Abstract要約: 本稿では、ビデオから誘発された表情を予測することを目的とした、EEV(Evoked Expressions from Videos)チャレンジに対するアプローチを提案する。
我々は,映像中のタイムスタンプの深部表現を抽出するために,コンピュータビジョンと音声信号における大規模データセットの事前学習モデルを利用する。
我々は,2021年のPearson相関係数0.05477を用いて,脳波課題における最先端の成果を得た。
- 参考スコア(独自算出の注目度): 4.915340974750594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an approach for Evoked Expressions from Videos (EEV)
challenge, which aims to predict evoked facial expressions from video. We take
advantage of pre-trained models on large-scale datasets in computer vision and
audio signals to extract the deep representation of timestamps in the video. A
temporal convolution network, rather than an RNN like architecture, is used to
explore temporal relationships due to its advantage in memory consumption and
parallelism. Furthermore, to address the missing annotations of some
timestamps, positional encoding is employed to ensure continuity of input data
when discarding these timestamps during training. We achieved state-of-the-art
results on the EEV challenge with a Pearson correlation coefficient of 0.05477,
the first ranked performance in the EEV 2021 challenge.
- Abstract(参考訳): 本稿では、ビデオから誘発された表情を予測することを目的とした、EEV(Evoked Expressions from Videos)チャレンジに対するアプローチを提案する。
我々は,映像中のタイムスタンプの深部表現を抽出するために,コンピュータビジョンと音声信号における大規模データセットの事前学習モデルを利用する。
RNNのようなアーキテクチャではなく、時間的畳み込みネットワークは、メモリ消費と並列性に利点があるため、時間的関係を探索するために使用される。
さらに、一部のタイムスタンプのアノテーションの欠如に対処するために、トレーニング中にこれらのタイムスタンプを破棄する際の入力データの連続性を保証するために位置符号化を用いる。
我々はPearson相関係数 0.05477 でEEV 2021 チャレンジの最先端結果を得た。
関連論文リスト
- Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery
Generation [10.799980374791316]
時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。
本稿では,既存のテキスト・ビデオ・グラウンドリングモデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的グラウンドディングフレームワークであるEVOQUERを提案する。
論文 参考訳(メタデータ) (2021-09-10T00:30:36Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - Multiple Instance-Based Video Anomaly Detection using Deep Temporal
Encoding-Decoding [5.255783459833821]
本稿では,監視ビデオにおける異常検出のための時間的深部符号化復号化手法を提案する。
提案手法はトレーニング期間中に異常ビデオクリップと正常ビデオクリップの両方を使用する。
提案手法は,ビデオ監視アプリケーションにおける異常検出の最先端ソリューションと同等かそれ以上に動作することを示す。
論文 参考訳(メタデータ) (2020-07-03T08:22:42Z) - Conditional Mutual information-based Contrastive Loss for Financial Time
Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。
本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-18T15:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。