Fugu-MT 論文翻訳(概要): Which is Making the Contribution: Modulating Unimodal and Cross-modal Dynamics for Multimodal Sentiment Analysis

論文の概要: Which is Making the Contribution: Modulating Unimodal and Cross-modal Dynamics for Multimodal Sentiment Analysis

arxiv url: http://arxiv.org/abs/2111.08451v1
Date: Wed, 10 Nov 2021 03:29:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-21 14:31:15.056567
Title: Which is Making the Contribution: Modulating Unimodal and Cross-modal Dynamics for Multimodal Sentiment Analysis
Title（参考訳）: マルチモーダル感情分析のためのユニモーダルとクロスモーダルのダイナミクスの変調
Authors: Ying Zeng, Sijie Mai, Haifeng Hu
Abstract要約: マルチモーダル感情分析(MSA)は、マルチモーダルデータの利用により注目される。最近のMSAは、主にクロスモーダル力学の学習に重点を置いているが、ユニモーダルネットワークの最適解を探すことは無視されている。 MSAフレームワーク textbfModulation textbfModel for textbfMultimodal textbfSentiment textbfAnalysisを提案する。
参考スコア（独自算出の注目度）: 18.833050804875032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal sentiment analysis (MSA) draws increasing attention with the availability of multimodal data. The boost in performance of MSA models is mainly hindered by two problems. On the one hand, recent MSA works mostly focus on learning cross-modal dynamics, but neglect to explore an optimal solution for unimodal networks, which determines the lower limit of MSA models. On the other hand, noisy information hidden in each modality interferes the learning of correct cross-modal dynamics. To address the above-mentioned problems, we propose a novel MSA framework \textbf{M}odulation \textbf{M}odel for \textbf{M}ultimodal \textbf{S}entiment \textbf{A}nalysis ({$ M^3SA $}) to identify the contribution of modalities and reduce the impact of noisy information, so as to better learn unimodal and cross-modal dynamics. Specifically, modulation loss is designed to modulate the loss contribution based on the confidence of individual modalities in each utterance, so as to explore an optimal update solution for each unimodal network. Besides, contrary to most existing works which fail to explicitly filter out noisy information, we devise a modality filter module to identify and filter out modality noise for the learning of correct cross-modal embedding. Extensive experiments on publicly datasets demonstrate that our approach achieves state-of-the-art performance.
Abstract（参考訳）: マルチモーダル感情分析(MSA)は、マルチモーダルデータの利用により注目される。 MSAモデルの性能向上は、主に2つの問題によって妨げられている。一方、近年のMSAはクロスモーダル力学の学習に重点を置いているが、MSAモデルの低限界を決定づけるユニモーダルネットワークの最適解の探索は無視されている。一方で、各モダリティに隠されたノイズ情報は、正しいクロスモーダルダイナミクスの学習を妨げる。上記の問題に対処するため, モダリティの寄与を識別し, ノイズ情報の影響を低減するために, モダリティとクロスモーダルのダイナミクスをよりよく学習するために, 新たな MSA フレームワーク \textbf{M}odulation \textbf{M}odel for \textbf{M}ultimodal \textbf{S}entiment \textbf{A}nalysis ({$ M^3SA $}) を提案する。特に、変調損失は、各発話における個々のモダリティの信頼度に基づいて損失寄与を変調し、各ユニモーダルネットワークの最適な更新ソリューションを探索するように設計されている。また,ノイズを明示的にフィルタリングしない既存の著作物とは異なり,モダリティフィルタモジュールを考案し,モダリティノイズを識別してフィルタし,正しいクロスモーダル埋め込みを学習する。公開データセットに関する大規模な実験は、我々のアプローチが最先端のパフォーマンスを達成することを示す。

関連論文リスト

Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。 Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-24T08:46:52Z)
PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。 PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文参考訳（メタデータ） (2025-01-16T08:04:04Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation [7.627299398469962]
本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
論文参考訳（メタデータ） (2024-12-19T15:53:21Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文参考訳（メタデータ） (2024-10-15T08:49:38Z)
Towards Robust Multimodal Sentiment Analysis with Incomplete Data [20.75292807497547]
頑健なマルチモーダル感性分析(MSA)を実現するための言語支配型耐雑音学習ネットワーク(LNLN)を提案する。 LNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、様々なノイズシナリオにおけるモデルの堅牢性を高める。
論文参考訳（メタデータ） (2024-09-30T07:14:31Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報はソーシャルメディアのプラットフォームで増え続けている問題です本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文参考訳（メタデータ） (2023-04-27T12:28:29Z)
Multimodal Representations Learning Based on Mutual Information Maximization and Minimization and Identity Embedding for Multimodal Sentiment Analysis [33.73730195500633]
相互情報の最大化とアイデンティティの埋め込みに基づくマルチモーダル表現モデルを提案する。 2つの公開データセットの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-01-10T01:41:39Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。