論文の概要: CubeMLP: A MLP-based Model for Multimodal Sentiment Analysis and
Depression Estimation
- arxiv url: http://arxiv.org/abs/2207.14087v1
- Date: Thu, 28 Jul 2022 13:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:04:23.579675
- Title: CubeMLP: A MLP-based Model for Multimodal Sentiment Analysis and
Depression Estimation
- Title(参考訳): CubeMLP:マルチモーダル感性分析と抑うつ推定のためのMLPモデル
- Authors: Hao Sun, Hongyi Wang, Jiaqing Liu, Yen-Wei Chen, and Lanfen Lin
- Abstract要約: CubeMLPは、変換を完全にベースとしたマルチモーダルな特徴処理フレームワークである。
より低い計算コストで最先端のパフォーマンスを実現することができる。
以上の結果から,CubeMLPは計算コストをはるかに低減して最先端の性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 16.196854036886535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis and depression estimation are two important
research topics that aim to predict human mental states using multimodal data.
Previous research has focused on developing effective fusion strategies for
exchanging and integrating mind-related information from different modalities.
Some MLP-based techniques have recently achieved considerable success in a
variety of computer vision tasks. Inspired by this, we explore multimodal
approaches with a feature-mixing perspective in this study. To this end, we
introduce CubeMLP, a multimodal feature processing framework based entirely on
MLP. CubeMLP consists of three independent MLP units, each of which has two
affine transformations. CubeMLP accepts all relevant modality features as input
and mixes them across three axes. After extracting the characteristics using
CubeMLP, the mixed multimodal features are flattened for task predictions. Our
experiments are conducted on sentiment analysis datasets: CMU-MOSI and
CMU-MOSEI, and depression estimation dataset: AVEC2019. The results show that
CubeMLP can achieve state-of-the-art performance with a much lower computing
cost.
- Abstract(参考訳): マルチモーダル感情分析と抑うつ推定は、マルチモーダルデータを用いた人間の精神状態の予測を目的とした2つの重要な研究課題である。
従来の研究は、様々なモダリティからマインド関連情報を交換・統合するための効果的な融合戦略の開発に重点を置いてきた。
MLPベースの技術は、最近様々なコンピュータビジョンタスクでかなりの成功を収めた。
そこで本研究では,特徴混合の観点からマルチモーダルアプローチを考察する。
そこで本研究では,MLPをベースとしたマルチモーダル機能処理フレームワークであるCubeMLPを紹介する。
CubeMLPは3つの独立したMLPユニットから構成され、それぞれが2つのアフィン変換を持つ。
CubeMLP は入力としてすべての関連するモダリティ特性を受け入れ、3つの軸に混合する。
cubemlpを用いて特性を抽出した後、タスク予測のために混合マルチモーダル特徴を平坦化する。
我々は,感情分析データセットであるCMU-MOSIとCMU-MOSEIと抑うつ推定データセットであるAVEC2019について実験を行った。
その結果、cubemlpは計算コストをはるかに低くして最先端のパフォーマンスを達成できることがわかった。
関連論文リスト
- MLP-KAN: Unifying Deep Representation and Function Learning [7.634331640151854]
そこで本研究では,手動モデル選択の必要性を解消する統一手法を提案する。
表現学習にMLP(Multi-Layer Perceptrons)と関数学習にKolmogorov-Arnold Networks(KANsogo)を統合することにより,優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-03T22:22:43Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - MLPs Learn In-Context on Regression and Classification Tasks [28.13046236900491]
In-context Learning (ICL) はしばしばトランスフォーマーモデルのユニークな特徴であると考えられている。
マルチ層パーセプトロン(MLP)もコンテキスト内で学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-24T15:04:36Z) - Boosting Convolution with Efficient MLP-Permutation for Volumetric
Medical Image Segmentation [32.645022002807416]
マルチレイヤパーセプトロン(MLP)ネットワークは、ViTに匹敵する結果により、研究者の間で人気を取り戻している。
本稿では,コンボリューションニューラルネットワーク(CNN)とPHNetの両方の長所を活かしたPHNetという,Vol-MedSeg用の新しい可変ハイブリッドネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T08:59:09Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning [63.64636047748605]
一般的なマルチステップMAMLアルゴリズムに対して収束保証を提供するための新しい理論フレームワークを開発する。
特に,本研究の結果は,収束を保証するためには,内部段階のステップを逆比例して$N$の内段ステップを選択する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T19:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。