論文の概要: Learning Language-guided Adaptive Hyper-modality Representation for
Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2310.05804v1
- Date: Mon, 9 Oct 2023 15:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 06:37:00.650035
- Title: Learning Language-guided Adaptive Hyper-modality Representation for
Multimodal Sentiment Analysis
- Title(参考訳): 言語誘導型適応型ハイパーモーダル表現によるマルチモーダル感性分析
- Authors: Haoyu Zhang, Yu Wang, Guanghao Yin, Kejun Liu, Yuanyuan Liu, Tianshu
Yu
- Abstract要約: 適応型言語誘導型マルチモーダルトランス(ALMT)を提案する。
ALMTにはAdaptive Hyper-modality Learning (AHL)モジュールが組み込まれており、無関係/複雑圧縮表現を学習する。
ALMTは、いくつかの一般的なデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.012103941836838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though Multimodal Sentiment Analysis (MSA) proves effective by utilizing rich
information from multiple sources (e.g., language, video, and audio), the
potential sentiment-irrelevant and conflicting information across modalities
may hinder the performance from being further improved. To alleviate this, we
present Adaptive Language-guided Multimodal Transformer (ALMT), which
incorporates an Adaptive Hyper-modality Learning (AHL) module to learn an
irrelevance/conflict-suppressing representation from visual and audio features
under the guidance of language features at different scales. With the obtained
hyper-modality representation, the model can obtain a complementary and joint
representation through multimodal fusion for effective MSA. In practice, ALMT
achieves state-of-the-art performance on several popular datasets (e.g., MOSI,
MOSEI and CH-SIMS) and an abundance of ablation demonstrates the validity and
necessity of our irrelevance/conflict suppression mechanism.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)は、複数の情報源(例えば、言語、ビデオ、音声)から豊富な情報を活用することで有効であることが証明されているが、潜在的な感情的関連性やモダリティ間の矛盾のある情報は、パフォーマンスをさらに改善することを妨げる可能性がある。
そこで我々は,適応型言語誘導型マルチモーダルトランスフォーマ (ALMT) を提案する。AHL(Adaptive Hyper-modality Learning) モジュールを組み込んで,異なるスケールの言語特徴の指導の下で,視覚的・音声的特徴から不適切な/複雑な表現を学習する。
得られた超モダリティ表現により、モデルは効率的なMSAのためのマルチモーダル融合により相補的および共同表現を得ることができる。
実際、ALMTはいくつかの一般的なデータセット(MOSI、MOSEI、CH-SIMSなど)で最先端のパフォーマンスを達成しており、アブレーションの多さは我々の無関係/複雑抑制機構の有効性と必要性を示している。
関連論文リスト
- Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning [21.127950337002776]
マルチモーダル・センティメント・アナリティクス(MSA)は、複数のモーダルを通して人間の感情を理解し、認識することを目的とした重要な研究分野である。
本稿では,不確実なモダリティの下でのタスクのための階層表現学習フレームワーク(HRLF)を提案する。
HRLFは、不確実なモダリティ欠失例において、MSA性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-11-05T04:04:41Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities [0.9217021281095907]
DAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
DAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示す。
本稿では,DAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factorを紹介する。
論文 参考訳(メタデータ) (2024-01-20T06:42:32Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。