Fugu-MT 論文翻訳(概要): Temporal Convolution Networks with Positional Encoding for Evoked Expression Estimation

論文の概要: Temporal Convolution Networks with Positional Encoding for Evoked Expression Estimation

arxiv url: http://arxiv.org/abs/2106.08596v1
Date: Wed, 16 Jun 2021 07:49:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-18 04:58:14.026943
Title: Temporal Convolution Networks with Positional Encoding for Evoked Expression Estimation
Title（参考訳）: 位置符号化を用いた時間畳み込みネットワークによる表情推定
Authors: VanThong Huynh, Guee-Sang Lee, Hyung-Jeong Yang, Soo-Huyng Kim
Abstract要約: 本稿では、ビデオから誘発された表情を予測することを目的とした、EEV(Evoked Expressions from Videos)チャレンジに対するアプローチを提案する。我々は,映像中のタイムスタンプの深部表現を抽出するために,コンピュータビジョンと音声信号における大規模データセットの事前学習モデルを利用する。我々は,2021年のPearson相関係数0.05477を用いて,脳波課題における最先端の成果を得た。
参考スコア（独自算出の注目度）: 4.915340974750594
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an approach for Evoked Expressions from Videos (EEV) challenge, which aims to predict evoked facial expressions from video. We take advantage of pre-trained models on large-scale datasets in computer vision and audio signals to extract the deep representation of timestamps in the video. A temporal convolution network, rather than an RNN like architecture, is used to explore temporal relationships due to its advantage in memory consumption and parallelism. Furthermore, to address the missing annotations of some timestamps, positional encoding is employed to ensure continuity of input data when discarding these timestamps during training. We achieved state-of-the-art results on the EEV challenge with a Pearson correlation coefficient of 0.05477, the first ranked performance in the EEV 2021 challenge.
Abstract（参考訳）: 本稿では、ビデオから誘発された表情を予測することを目的とした、EEV(Evoked Expressions from Videos)チャレンジに対するアプローチを提案する。我々は,映像中のタイムスタンプの深部表現を抽出するために,コンピュータビジョンと音声信号における大規模データセットの事前学習モデルを利用する。 RNNのようなアーキテクチャではなく、時間的畳み込みネットワークは、メモリ消費と並列性に利点があるため、時間的関係を探索するために使用される。さらに、一部のタイムスタンプのアノテーションの欠如に対処するために、トレーニング中にこれらのタイムスタンプを破棄する際の入力データの連続性を保証するために位置符号化を用いる。我々はPearson相関係数 0.05477 でEEV 2021 チャレンジの最先端結果を得た。

関連論文リスト

DisTime: Distribution-based Time Representation for Video Large Language Models [23.176698643825123]
DisTimeは、ビデオLLMにおける時間的理解を強化するために設計された軽量フレームワークである。 DisTimeは、連続的な時間的埋め込みスペースを作成するために学習可能なトークンを使用する。 DisTimeは3つの時間に敏感なタスクでベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-30T08:10:18Z)
Towards Efficient Real-Time Video Motion Transfer via Generative Time Series Modeling [7.3949576464066]
本研究では,モーショントランスファー対応ビデオアプリケーションにおいて,帯域幅を大幅に最適化する深層学習フレームワークを提案する。複雑な動きを効果的に捉えるために,キーポイントを検出することで動的物体を符号化する第1次運動モデル(FOMM)を用いる。ビデオアニメーションと再構成のために, 平均絶対誤差, 共同埋め込み予測アーキテクチャ埋め込み距離, 構造類似度指数, 平均ペアワイズ変位の3つの指標を用いて, 実験結果を検証した。
論文参考訳（メタデータ） (2025-04-07T22:21:54Z)
PSDNorm: Test-Time Temporal Normalization for Deep Learning on EEG Signals [63.05435596565677]
PSDNormは、Mongeマッピングと時間コンテキストを活用して、ディープラーニングモデルでフィーチャーマップを正規化するレイヤである。 PSDNormは、トレーニング中に見えないデータセットのテスト時間における最先端のパフォーマンスを達成する。 PSDNormはロバスト性を大幅に改善し、20%の難題でF1スコアを著しく高めている。
論文参考訳（メタデータ） (2025-03-06T16:20:25Z)
Temporal Context Consistency Above All: Enhancing Long-Term Anticipation by Learning and Enforcing Temporal Constraints [4.880243880711163]
本稿では,初期未トリミング映像区間の観察から,動画中の動作ラベルとその持続時間を予測する手法を提案する。並列デコーディングを備えたエンコーダ・デコーダアーキテクチャ上に構築し,2つの重要なコントリビューションを行う。 LTA,EpicKitchen-55,EGTEA+,50Salads,Breakfastの4つのベンチマークデータセットに対して,本手法の有効性を検証する。
論文参考訳（メタデータ） (2024-12-27T03:29:10Z)
TimeRefine: Temporal Grounding with Time Refining Video LLM [75.99665302872901]
ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。我々は時間的接地タスクを時間的精錬タスクとして再構成する。我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
論文参考訳（メタデータ） (2024-12-12T18:59:11Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文参考訳（メタデータ） (2023-05-22T07:47:27Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-08-11T14:05:51Z)
EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation [10.799980374791316]
時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。本稿では,既存のテキスト・ビデオ・グラウンドリングモデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的グラウンドディングフレームワークであるEVOQUERを提案する。
論文参考訳（メタデータ） (2021-09-10T00:30:36Z)
Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-04-01T16:48:53Z)
A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。エゴモーション記録シーケンスは重要な関連性を持つようになった。提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文参考訳（メタデータ） (2020-08-26T14:44:45Z)
Multiple Instance-Based Video Anomaly Detection using Deep Temporal Encoding-Decoding [5.255783459833821]
本稿では,監視ビデオにおける異常検出のための時間的深部符号化復号化手法を提案する。提案手法はトレーニング期間中に異常ビデオクリップと正常ビデオクリップの両方を使用する。提案手法は,ビデオ監視アプリケーションにおける異常検出の最先端ソリューションと同等かそれ以上に動作することを示す。
論文参考訳（メタデータ） (2020-07-03T08:22:42Z)
Conditional Mutual information-based Contrastive Loss for Financial Time Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文参考訳（メタデータ） (2020-02-18T15:24:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。