論文の概要: Multi-modal Expression Recognition with Ensemble Method
- arxiv url: http://arxiv.org/abs/2303.10033v1
- Date: Fri, 17 Mar 2023 15:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 14:16:09.108365
- Title: Multi-modal Expression Recognition with Ensemble Method
- Title(参考訳): アンサンブル法によるマルチモーダル表現認識
- Authors: Chuanhe Liu, Xinjie Zhang, Xiaolong Liu, Tenggan Zhang, Liyu Meng,
Yuchen Liu, Yuanyuan Deng, Wenqiang Jiang
- Abstract要約: 複数の事前訓練されたモデルによって抽出されたマルチモーダル特徴の組み合わせは、より効果的な感情情報を取得するために適用される。
このような視覚的・音声的モーダルな特徴の組み合わせに対して,2つの時間的エンコーダを用いて時間的文脈情報を探索する。
本システムでは,検証セットの平均F1スコアが0.45774である。
- 参考スコア(独自算出の注目度): 9.880739481276835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our submission to the Expression Classification Challenge
of the fifth Affective Behavior Analysis in-the-wild (ABAW) Competition. In our
method, multimodal feature combinations extracted by several different
pre-trained models are applied to capture more effective emotional information.
For these combinations of visual and audio modal features, we utilize two
temporal encoders to explore the temporal contextual information in the data.
In addition, we employ several ensemble strategies for different experimental
settings to obtain the most accurate expression recognition results. Our system
achieves the average F1 Score of 0.45774 on the validation set.
- Abstract(参考訳): 本稿では,第5回愛着行動分析コンペティション(abaw)における表現分類の課題について述べる。
本手法では,複数の異なる事前学習モデルから抽出したマルチモーダル特徴の組み合わせを適用し,より効果的な感情情報を収集する。
これらの視覚的特徴と音声的特徴の組み合わせについて,2つの時間的エンコーダを用いて,データ内の時間的文脈情報を探索する。
また,表情認識結果の精度を高めるために,異なる実験設定のためのアンサンブル戦略を複数採用した。
本システムは,検証セットの平均F1スコア0.45774を達成する。
関連論文リスト
- Multimodal Clinical Trial Outcome Prediction with Large Language Models [30.201189349890267]
臨床試験の結果を予測するために, LIFTED(Multimodal Mixed-of-Experts)アプローチを提案する。
LIFTEDは、異なるモダリティデータを自然言語記述に変換することで統一する。
そして、LIFTEDは統合ノイズ耐性エンコーダを構築し、モーダル固有の言語記述から情報を抽出する。
論文 参考訳(メタデータ) (2024-02-09T16:18:38Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - On Robustness in Multimodal Learning [75.03719000820388]
マルチモーダル学習は、ビデオ、オーディオ、テキストなどの複数の入力モダリティの学習として定義される。
本稿では,一般的なマルチモーダル表現学習手法の体系的解析を行うためのマルチモーダルロバストネスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:02:07Z) - An Ensemble Approach for Multiple Emotion Descriptors Estimation Using
Multi-task Learning [12.589338141771385]
本稿では,第4回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションへの提案方法について述べる。
顔情報のみを使用する代わりに、顔と顔の周囲のコンテキストを含む提供されるデータセットから完全な情報を利用する。
提案システムは,MTLチャレンジ検証データセット上で0.917の性能を実現する。
論文 参考訳(メタデータ) (2022-07-22T04:57:56Z) - Emotion Recognition based on Multi-Task Learning Framework in the ABAW4
Challenge [12.662242704351563]
本稿では,第4回ABAWコンペティションにおけるマルチタスク学習(MTL)チャレンジについて述べる。
視覚的特徴表現に基づいて3種類の時間的エンコーダを用いて,映像中の時間的文脈情報をキャプチャする。
本システムは,MTLチャレンジ検証データセット上での1.742ドルの性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T16:18:53Z) - Multi-modal Emotion Estimation for in-the-wild Videos [40.292523976091964]
本稿では,第3回ABAW(Affective Behavior Analysis in-the-wild)コンペティションにおけるValence-Arousal Estimation Challengeについて紹介する。
本手法では,マルチモーダル情報,すなわち視覚情報と音声情報を利用し,時間エンコーダを用いて映像の時間コンテキストをモデル化する。
論文 参考訳(メタデータ) (2022-03-24T12:23:07Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - A Multi-modal and Multi-task Learning Method for Action Unit and
Expression Recognition [18.478011167414223]
視覚情報と音声情報の両方を用いたマルチモーダル・マルチタスク学習手法を提案する。
AUスコアは0.712、式スコアは0.477となる。
論文 参考訳(メタデータ) (2021-07-09T03:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。