論文の概要: A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences
- arxiv url: http://arxiv.org/abs/2212.11772v1
- Date: Sat, 12 Nov 2022 13:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 17:50:18.569914
- Title: A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences
- Title(参考訳): 不整合テキスト音声系列に対する自己調整型融合表現学習モデル
- Authors: Kaicheng Yang, Ruxuan Zhang, Hua Xu, Kai Gao
- Abstract要約: 融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。
本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。
実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
- 参考スコア(独自算出の注目度): 16.38826799727453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inter-modal interaction plays an indispensable role in multimodal sentiment
analysis. Due to different modalities sequences are usually non-alignment, how
to integrate relevant information of each modality to learn fusion
representations has been one of the central challenges in multimodal learning.
In this paper, a Self-Adjusting Fusion Representation Learning Model (SA-FRLM)
is proposed to learn robust crossmodal fusion representations directly from the
unaligned text and audio sequences. Different from previous works, our model
not only makes full use of the interaction between different modalities but
also maximizes the protection of the unimodal characteristics. Specifically, we
first employ a crossmodal alignment module to project different modalities
features to the same dimension. The crossmodal collaboration attention is then
adopted to model the inter-modal interaction between text and audio sequences
and initialize the fusion representations. After that, as the core unit of the
SA-FRLM, the crossmodal adjustment transformer is proposed to protect original
unimodal characteristics. It can dynamically adapt the fusion representations
by using single modal streams. We evaluate our approach on the public
multimodal sentiment analysis datasets CMU-MOSI and CMU-MOSEI. The experiment
results show that our model has significantly improved the performance of all
the metrics on the unaligned text-audio sequences.
- Abstract(参考訳): モーダル間相互作用はマルチモーダル感情分析において不可欠である。
異なるモダリティシーケンスは通常非アライメントであるため、融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の一つである。
本稿では,非整合テキストおよび音声シーケンスから直接,堅牢な相互拡散表現を学習するために,自己調整型融合表現学習モデル(SA-FRLM)を提案する。
従来の研究と異なり、我々のモデルは異なるモダリティ間の相互作用を最大限に活用するだけでなく、ユニモーダル特性の保護を最大化する。
具体的には、まずクロスモーダルアライメントモジュールを使用して、異なるモジュラリティ特徴を同じ次元に投影する。
次に、テキストとオーディオシーケンス間のモーダル間相互作用をモデル化し、融合表現を初期化する。
その後、sa-frlmのコアユニットとして、オリジナルのユニモーダル特性を保護するためにクロスモーダル調整トランスが提案されている。
単一のモーダルストリームを使用することで、融合表現を動的に適応させることができる。
公共マルチモーダル感情分析データセットCMU-MOSIとCMU-MOSEIについて検討した。
実験の結果,不整合なテキスト音声列におけるすべてのメトリクスの性能が大幅に向上したことがわかった。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Action Quality Assessment [40.10252351858076]
アクション品質アセスメント(AQA)とは、アクションがどれだけうまく実行されるかを評価することである。
我々は、AQAは視覚情報に強く依存しているが、オーディオはスコアの回帰精度を向上させるのに有用な補完情報であると主張している。
本稿では,モーダリティ固有情報と混合モーダリティ情報を個別にモデル化するプログレッシブ・アダプティブ・マルチモーダル・フュージョン・ネットワーク(PAMFN)を提案する。
論文 参考訳(メタデータ) (2024-01-31T15:37:12Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。