論文の概要: Learning Language-guided Adaptive Hyper-modality Representation for
Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2310.05804v2
- Date: Thu, 14 Dec 2023 13:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:09:45.097490
- Title: Learning Language-guided Adaptive Hyper-modality Representation for
Multimodal Sentiment Analysis
- Title(参考訳): 言語誘導型適応型ハイパーモーダル表現によるマルチモーダル感性分析
- Authors: Haoyu Zhang, Yu Wang, Guanghao Yin, Kejun Liu, Yuanyuan Liu, Tianshu
Yu
- Abstract要約: 適応型言語誘導型マルチモーダルトランス(ALMT)を提案する。
ALMTにはAdaptive Hyper-modality Learning (AHL)モジュールが組み込まれており、無関係/複雑圧縮表現を学習する。
ALMTは、いくつかの一般的なデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.012103941836838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though Multimodal Sentiment Analysis (MSA) proves effective by utilizing rich
information from multiple sources (e.g., language, video, and audio), the
potential sentiment-irrelevant and conflicting information across modalities
may hinder the performance from being further improved. To alleviate this, we
present Adaptive Language-guided Multimodal Transformer (ALMT), which
incorporates an Adaptive Hyper-modality Learning (AHL) module to learn an
irrelevance/conflict-suppressing representation from visual and audio features
under the guidance of language features at different scales. With the obtained
hyper-modality representation, the model can obtain a complementary and joint
representation through multimodal fusion for effective MSA. In practice, ALMT
achieves state-of-the-art performance on several popular datasets (e.g., MOSI,
MOSEI and CH-SIMS) and an abundance of ablation demonstrates the validity and
necessity of our irrelevance/conflict suppression mechanism.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)は、複数の情報源(例えば、言語、ビデオ、音声)から豊富な情報を活用することで有効であることが証明されているが、潜在的な感情的関連性やモダリティ間の矛盾のある情報は、パフォーマンスをさらに改善することを妨げる可能性がある。
そこで我々は,適応型言語誘導型マルチモーダルトランスフォーマ (ALMT) を提案する。AHL(Adaptive Hyper-modality Learning) モジュールを組み込んで,異なるスケールの言語特徴の指導の下で,視覚的・音声的特徴から不適切な/複雑な表現を学習する。
得られた超モダリティ表現により、モデルは効率的なMSAのためのマルチモーダル融合により相補的および共同表現を得ることができる。
実際、ALMTはいくつかの一般的なデータセット(MOSI、MOSEI、CH-SIMSなど)で最先端のパフォーマンスを達成しており、アブレーションの多さは我々の無関係/複雑抑制機構の有効性と必要性を示している。
関連論文リスト
- Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。
MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T15:10:22Z) - Gaussian Adaptive Attention is All You Need: Robust Contextual
Representations Across Multiple Modalities [1.03590082373586]
本稿では,GAAM(Multi-Head Gaussian Adaptive Attention Mechanism)を提案する。
GAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
本稿では,GAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factor(IF)を紹介する。
論文 参考訳(メタデータ) (2024-01-20T06:42:32Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model [33.072967177313025]
AnyMAL(AnyMAL, Any-Modality Augmented Language Model)は,多種多様な入力モダリティ信号に起因する統一モデルである。
AnyMALはLLaMA-2 (70B)を含む最先端LLMの強力なテキストベースの推論能力を継承する
我々は、人間と自動評価の両方からなる総合的な経験分析を行い、様々なマルチモーダルタスクにおける最先端の性能を実証する。
論文 参考訳(メタデータ) (2023-09-27T22:50:51Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Large AI Model Empowered Multimodal Semantic Communications [51.17527319441436]
本稿では,Large AI Model-based Multimodal SC (LAM-MSC) フレームワークを提案する。
SC-based Multimodal Alignment (MMA)について紹介する。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案する。
最後に、CGE(Conditional Generative Adversarial Network-based Channel Estimation)を適用し、CSI(Channel State Information)を得る。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。