論文の概要: Multimodal End-to-End Sparse Model for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2103.09666v1
- Date: Wed, 17 Mar 2021 14:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 16:05:57.189554
- Title: Multimodal End-to-End Sparse Model for Emotion Recognition
- Title(参考訳): 感情認識のためのマルチモーダルエンドツーエンドスパースモデル
- Authors: Wenliang Dai, Samuel Cahyawijaya, Zihan Liu, Pascale Fung
- Abstract要約: 2つのフェーズを繋ぐ完全エンドツーエンドのモデルを開発し、それらを共同で最適化します。
また、エンドツーエンドのトレーニングを可能にするために、現在のデータセットを再構成します。
実験結果から,我々の完全エンドツーエンドモデルは現在の最先端モデルを大きく上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 40.71488291980002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing works on multimodal affective computing tasks, such as emotion
recognition, generally adopt a two-phase pipeline, first extracting feature
representations for each single modality with hand-crafted algorithms and then
performing end-to-end learning with the extracted features. However, the
extracted features are fixed and cannot be further fine-tuned on different
target tasks, and manually finding feature extraction algorithms does not
generalize or scale well to different tasks, which can lead to sub-optimal
performance. In this paper, we develop a fully end-to-end model that connects
the two phases and optimizes them jointly. In addition, we restructure the
current datasets to enable the fully end-to-end training. Furthermore, to
reduce the computational overhead brought by the end-to-end model, we introduce
a sparse cross-modal attention mechanism for the feature extraction.
Experimental results show that our fully end-to-end model significantly
surpasses the current state-of-the-art models based on the two-phase pipeline.
Moreover, by adding the sparse cross-modal attention, our model can maintain
performance with around half the computation in the feature extraction part.
- Abstract(参考訳): 感情認識などのマルチモーダル感情コンピューティングタスクの既存の作業は、一般的には2相パイプラインを採用し、まず手作りのアルゴリズムで各モダリティの特徴表現を抽出し、次に抽出された特徴を使ってエンドツーエンドの学習を行う。
しかし、抽出された特徴は固定されており、異なる目標タスクに対してさらに微調整することはできず、手動で特徴抽出アルゴリズムは異なるタスクに対して一般化やスケールができないため、サブ最適性能につながる可能性がある。
本稿では,これら2つのフェーズを接続し,協調的に最適化する完全エンドツーエンドモデルを開発した。
さらに、現在のデータセットを再構築して、完全なエンドツーエンドトレーニングを可能にします。
さらに,エンド・ツー・エンドモデルによる計算オーバーヘッドを低減するため,特徴抽出のための疎クロスモーダル注意機構を導入する。
実験の結果,本モデルが2相パイプラインに基づく最先端モデルを大幅に上回ることがわかった。
さらに,スリムなクロスモーダル注意を追加することで,特徴抽出部における計算量の約半分で性能を維持できる。
関連論文リスト
- Few-Shot Medical Image Segmentation with Large Kernel Attention [5.630842216128902]
本稿では,包括的特徴表現能力を持つ数ショットの医用セグメンテーションモデルを提案する。
本モデルは,2経路特徴抽出器,アテンションモジュール,適応型プロトタイプ予測モジュール,マルチスケール予測融合モジュールの4つの重要なモジュールから構成される。
その結果,本手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-07-27T02:28:30Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Multimodal End-to-End Group Emotion Recognition using Cross-Modal
Attention [0.0]
グループレベルの感情を分類することは、ビデオの複雑さのために難しい課題である。
VGAFデータセットベースラインよりも約8.5%高い60.37%の検証精度が得られた。
論文 参考訳(メタデータ) (2021-11-10T19:19:26Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。