Fugu-MT 論文翻訳(概要): Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning

論文の概要: Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning

arxiv url: http://arxiv.org/abs/2409.00143v2
Date: Wed, 11 Sep 2024 04:44:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 20:02:24.939552
Title: Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning
Title（参考訳）: 逆時間不変学習を用いた意味誘導型マルチモーダル知覚復号法
Authors: Guoyang Xu, Junqi Xue, Yuxin Liu, Zirui Wang, Min Zhang, Zhenxi Song, Zhiguo Zhang,
Abstract要約: マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
参考スコア（独自算出の注目度）: 22.54577327204281
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal sentiment analysis aims to learn representations from different modalities to identify human emotions. However, existing works often neglect the frame-level redundancy inherent in continuous time series, resulting in incomplete modality representations with noise. To address this issue, we propose temporal-invariant learning for the first time, which constrains the distributional variations over time steps to effectively capture long-term temporal dynamics, thus enhancing the quality of the representations and the robustness of the model. To fully exploit the rich semantic information in textual knowledge, we propose a semantic-guided fusion module. By evaluating the correlations between different modalities, this module facilitates cross-modal interactions gated by modality-invariant representations. Furthermore, we introduce a modality discriminator to disentangle modality-invariant and modality-specific subspaces. Experimental results on two public datasets demonstrate the superiority of our model. Our code is available at https://github.com/X-G-Y/SATI.
Abstract（参考訳）: マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。しかし、既存の研究はしばしば連続時系列に固有のフレームレベルの冗長性を無視し、ノイズを伴う不完全なモジュラリティ表現をもたらす。この問題に対処するために,時間的変化の時間的変化を制約し,長期的時間的ダイナミクスを効果的に捉え,表現の質とモデルの堅牢性を向上する時間的不変学習を提案する。テキスト知識におけるリッチな意味情報を完全に活用するために,意味誘導型融合モジュールを提案する。異なるモジュラリティ間の相関性を評価することにより、このモジュールはモジュラリティ不変表現によって表される相互モーダル相互作用を促進する。さらに、モジュラリティ不変部分空間とモダリティ固有部分空間をアンタングル化するモダリティ判別器を導入する。 2つの公開データセットの実験結果は、我々のモデルの優位性を示している。私たちのコードはhttps://github.com/X-G-Y/SATI.comで公開されています。

関連論文リスト

Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。 4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文参考訳（メタデータ） (2024-07-16T03:34:38Z)
Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文参考訳（メタデータ） (2024-07-06T04:36:48Z)
From Orthogonality to Dependency: Learning Disentangled Representation for Multi-Modal Time-Series Sensing Signals [27.95734153126108]
表現学習の既存の方法は、モダリティ共有変数とモダリティ固有の潜在変数を分離することを目的としている。本稿では、モーダリティ共有変数とモーダリティ固有潜伏変数が依存する一般的な生成過程を提案する。当社の textbfMATE モデルは,モーダリティ共有型およびモーダリティ特化型事前ネットワークを備えた時間変動型推論アーキテクチャ上に構築されている。
論文参考訳（メタデータ） (2024-05-25T06:26:02Z)
Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文参考訳（メタデータ） (2024-03-08T09:16:47Z)
FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文参考訳（メタデータ） (2023-10-30T22:55:29Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)
Interpretable Time-series Representation Learning With Multi-Level Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。 DTSは時系列の解釈可能な表現として階層的意味概念を生成する。 DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-05-17T22:02:24Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。