論文の概要: Tag-assisted Multimodal Sentiment Analysis under Uncertain Missing
Modalities
- arxiv url: http://arxiv.org/abs/2204.13707v1
- Date: Thu, 28 Apr 2022 15:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 09:38:28.907552
- Title: Tag-assisted Multimodal Sentiment Analysis under Uncertain Missing
Modalities
- Title(参考訳): 不確かさを考慮したタグ支援マルチモーダル感情分析
- Authors: Jiandian Zeng, Tianyi Liu, Jiantao Zhou
- Abstract要約: 本稿では,未確定なモダリティの問題に対処するTag-Assisted Transformer (TATE) ネットワークを提案する。
具体的には、単一のモダリティと複数のモダリティの欠如の両方をカバーするために、タグ符号化モジュールを設計する。
トランスフォーマーエンコーダデコーダネットワークを用いて、欠落したモダリティの特徴を学習する。
- 参考スコア(独自算出の注目度): 22.49758828521601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal sentiment analysis has been studied under the assumption that all
modalities are available. However, such a strong assumption does not always
hold in practice, and most of multimodal fusion models may fail when partial
modalities are missing. Several works have addressed the missing modality
problem; but most of them only considered the single modality missing case, and
ignored the practically more general cases of multiple modalities missing. To
this end, in this paper, we propose a Tag-Assisted Transformer Encoder (TATE)
network to handle the problem of missing uncertain modalities. Specifically, we
design a tag encoding module to cover both the single modality and multiple
modalities missing cases, so as to guide the network's attention to those
missing modalities. Besides, we adopt a new space projection pattern to align
common vectors. Then, a Transformer encoder-decoder network is utilized to
learn the missing modality features. At last, the outputs of the Transformer
encoder are used for the final sentiment classification. Extensive experiments
are conducted on CMU-MOSI and IEMOCAP datasets, showing that our method can
achieve significant improvements compared with several baselines.
- Abstract(参考訳): マルチモーダル感情分析は、すべてのモダリティが利用できるという仮定の下で研究されている。
しかし、そのような強い仮定は実際には必ずしも成り立たないため、ほとんどのマルチモーダル融合モデルは部分モジュラリティが欠落しているときに失敗する。
いくつかの研究はモダリティの欠如に対処してきたが、そのほとんどは単一のモダリティの欠如を考慮し、複数のモダリティの欠如を無視した。
そこで本稿では,不確かさを解消するタッグアシストトランスコーダ(tate)ネットワークを提案する。
具体的には、単一のモダリティと複数のモダリティの欠如ケースの両方をカバーするタグエンコーディングモジュールを設計し、ネットワークの注意を欠いたモダリティに導く。
さらに、共通ベクトルを整列させるために新しい空間射影パターンを採用する。
そして、トランスフォーマーエンコーダデコーダネットワークを用いて、欠落したモダリティ特徴を学習する。
最終的に、最終的な感情分類にはTransformerエンコーダの出力が使用される。
CMU-MOSI と IEMOCAP のデータセットを用いて大規模な実験を行い、本手法はいくつかのベースラインと比較して大幅に改善できることを示した。
関連論文リスト
- Deep Correlated Prompting for Visual Recognition with Missing Modalities [22.40271366031256]
大規模マルチモーダルモデルでは、ペア化された大規模マルチモーダルトレーニングデータを用いて、一連のタスクに対して優れた性能を示す。
しかし、プライバシーの制約やコレクションの難しさのために、この単純な仮定が現実の世界で常に成り立つとは限らない。
そこで本研究では,大規模事前学習型マルチモーダルモデルを用いて,欠落事例を異なる入力タイプとして扱うことで,欠落したモダリティシナリオに対処する学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T05:28:43Z) - Leveraging Retrieval Augment Approach for Multimodal Emotion Recognition Under Missing Modalities [16.77191718894291]
我々は,Multimodal Emotion Recognition(RAMER)の欠如に対する検索機能強化の新たな枠組みを提案する。
我々のフレームワークは、欠落したモダリティMERタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-09-19T02:31:12Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Missing Modality meets Meta Sampling (M3S): An Efficient Universal
Approach for Multimodal Sentiment Analysis with Missing Modality [5.171058506312429]
モダリティを欠いたマルチモーダル感情分析,すなわちミス・モダリティに基づくメタサンプリング(M3S)のための,シンプルで効果的なメタサンプリング手法を提案する。
M3Sは、モーダル非依存メタラーニングフレームワークに欠落したモダリティサンプリング戦略を定式化する。
我々は,IEMOCAP,SIMS,CMU-MOSIデータセット上で実験を行い,最近の最先端手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-07T09:54:05Z) - A Study of Syntactic Multi-Modality in Non-Autoregressive Machine
Translation [144.55713938260828]
非自己回帰的翻訳モデルでは、ターゲット翻訳のマルチモーダル分布を捉えることは困難である。
我々はこれを短距離および長距離の構文的マルチモーダルに分解し、高度な損失関数を持つ最近のNATアルゴリズムを評価した。
我々は,実世界のデータセットにおいて,複雑な構文的多モード性を扱うために,新たな損失関数を設計する。
論文 参考訳(メタデータ) (2022-07-09T06:48:10Z) - TxT: Crossmodal End-to-End Learning with Transformers [84.55645255507461]
複数のモダリティに対する推論は、ドメイン間のセマンティックな概念の整合性を必要とする。
TxTはトランスフォーマーベースのクロスモーダルパイプラインで、下流タスクで言語とビジュアルコンポーネントの両方を微調整できる。
本モデルは,マルチモーダル質問応答のためのエンド・ツー・エンド・ラーニングからかなりの利益を得る。
論文 参考訳(メタデータ) (2021-09-09T17:12:20Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。