論文の概要: Learning Language-guided Adaptive Hyper-modality Representation for
Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2310.05804v2
- Date: Thu, 14 Dec 2023 13:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:09:45.097490
- Title: Learning Language-guided Adaptive Hyper-modality Representation for
Multimodal Sentiment Analysis
- Title(参考訳): 言語誘導型適応型ハイパーモーダル表現によるマルチモーダル感性分析
- Authors: Haoyu Zhang, Yu Wang, Guanghao Yin, Kejun Liu, Yuanyuan Liu, Tianshu
Yu
- Abstract要約: 適応型言語誘導型マルチモーダルトランス(ALMT)を提案する。
ALMTにはAdaptive Hyper-modality Learning (AHL)モジュールが組み込まれており、無関係/複雑圧縮表現を学習する。
ALMTは、いくつかの一般的なデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.012103941836838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though Multimodal Sentiment Analysis (MSA) proves effective by utilizing rich
information from multiple sources (e.g., language, video, and audio), the
potential sentiment-irrelevant and conflicting information across modalities
may hinder the performance from being further improved. To alleviate this, we
present Adaptive Language-guided Multimodal Transformer (ALMT), which
incorporates an Adaptive Hyper-modality Learning (AHL) module to learn an
irrelevance/conflict-suppressing representation from visual and audio features
under the guidance of language features at different scales. With the obtained
hyper-modality representation, the model can obtain a complementary and joint
representation through multimodal fusion for effective MSA. In practice, ALMT
achieves state-of-the-art performance on several popular datasets (e.g., MOSI,
MOSEI and CH-SIMS) and an abundance of ablation demonstrates the validity and
necessity of our irrelevance/conflict suppression mechanism.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)は、複数の情報源(例えば、言語、ビデオ、音声)から豊富な情報を活用することで有効であることが証明されているが、潜在的な感情的関連性やモダリティ間の矛盾のある情報は、パフォーマンスをさらに改善することを妨げる可能性がある。
そこで我々は,適応型言語誘導型マルチモーダルトランスフォーマ (ALMT) を提案する。AHL(Adaptive Hyper-modality Learning) モジュールを組み込んで,異なるスケールの言語特徴の指導の下で,視覚的・音声的特徴から不適切な/複雑な表現を学習する。
得られた超モダリティ表現により、モデルは効率的なMSAのためのマルチモーダル融合により相補的および共同表現を得ることができる。
実際、ALMTはいくつかの一般的なデータセット(MOSI、MOSEI、CH-SIMSなど)で最先端のパフォーマンスを達成しており、アブレーションの多さは我々の無関係/複雑抑制機構の有効性と必要性を示している。
関連論文リスト
- Gaussian Adaptive Attention is All You Need: Robust Contextual
Representations Across Multiple Modalities [1.03590082373586]
本稿では,GAAM(Multi-Head Gaussian Adaptive Attention Mechanism)を提案する。
GAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
本稿では,GAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factor(IF)を紹介する。
論文 参考訳(メタデータ) (2024-01-20T06:42:32Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model [33.072967177313025]
AnyMAL(AnyMAL, Any-Modality Augmented Language Model)は,多種多様な入力モダリティ信号に起因する統一モデルである。
AnyMALはLLaMA-2 (70B)を含む最先端LLMの強力なテキストベースの推論能力を継承する
我々は、人間と自動評価の両方からなる総合的な経験分析を行い、様々なマルチモーダルタスクにおける最先端の性能を実証する。
論文 参考訳(メタデータ) (2023-09-27T22:50:51Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Large AI Model Empowered Multimodal Semantic Communications [51.17527319441436]
本稿では,Large AI Model-based Multimodal SC (LAM-MSC) フレームワークを提案する。
SC-based Multimodal Alignment (MMA)について紹介する。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案する。
最後に、CGE(Conditional Generative Adversarial Network-based Channel Estimation)を適用し、CSI(Channel State Information)を得る。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。