論文の概要: Emotion Recognition based on Multi-Task Learning Framework in the ABAW4
Challenge
- arxiv url: http://arxiv.org/abs/2207.09373v1
- Date: Tue, 19 Jul 2022 16:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 14:08:06.168689
- Title: Emotion Recognition based on Multi-Task Learning Framework in the ABAW4
Challenge
- Title(参考訳): ABAW4チャレンジにおけるマルチタスク学習フレームワークに基づく感情認識
- Authors: Tenggan Zhang, Chuanhe Liu, Xiaolong Liu, Yuchen Liu, Liyu Meng, Lei
Sun, Wenqiang Jiang, Fengyuan Zhang
- Abstract要約: 本稿では,第4回ABAWコンペティションにおけるマルチタスク学習(MTL)チャレンジについて述べる。
視覚的特徴表現に基づいて3種類の時間的エンコーダを用いて,映像中の時間的文脈情報をキャプチャする。
本システムは,MTLチャレンジ検証データセット上での1.742ドルの性能を実現する。
- 参考スコア(独自算出の注目度): 12.662242704351563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our submission to the Multi-Task Learning (MTL) Challenge
of the 4th Affective Behavior Analysis in-the-wild (ABAW) competition. Based on
visual feature representations, we utilize three types of temporal encoder to
capture the temporal context information in the video, including the
transformer based encoder, LSTM based encoder and GRU based encoder. With the
temporal context-aware representations, we employ multi-task framework to
predict the valence, arousal, expression and AU values of the images. In
addition, smoothing processing is applied to refine the initial valence and
arousal predictions, and a model ensemble strategy is used to combine multiple
results from different model setups. Our system achieves the performance of
$1.742$ on MTL Challenge validation dataset.
- Abstract(参考訳): 本稿では,第4回日本感情行動分析学会(abaw)コンペティションにおけるマルチタスク学習(mtl)の課題について述べる。
視覚特徴表現に基づいて,トランスコーダ,lstmエンコーダ,grgベースのエンコーダといった3種類の時間的エンコーダを用いて,映像内の時間的コンテキスト情報をキャプチャする。
時間的文脈対応表現では、画像の価値、覚醒値、表現値、AU値を予測するためにマルチタスク・フレームワークを用いる。
さらに、初期価と覚醒予測を洗練させるために平滑化処理を適用し、異なるモデル設定から複数の結果を組み合わせるためにモデルアンサンブル戦略を用いる。
MTLチャレンジ検証データセット上での1.742ドルの性能を実現する。
関連論文リスト
- MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - A Unified Multiscale Encoder-Decoder Transformer for Video Segmentation [13.703655451279921]
本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。
本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:50:19Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - An Ensemble Approach for Multiple Emotion Descriptors Estimation Using
Multi-task Learning [12.589338141771385]
本稿では,第4回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションへの提案方法について述べる。
顔情報のみを使用する代わりに、顔と顔の周囲のコンテキストを含む提供されるデータセットから完全な情報を利用する。
提案システムは,MTLチャレンジ検証データセット上で0.917の性能を実現する。
論文 参考訳(メタデータ) (2022-07-22T04:57:56Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。