Fugu-MT 論文翻訳(概要): GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis

論文の概要: GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis

arxiv url: http://arxiv.org/abs/2408.14809v2
Date: Thu, 12 Sep 2024 16:11:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 20:59:43.841926
Title: GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis
Title（参考訳）: GSIFN:マルチモーダル感性解析のためのグラフ構造化・介在型マルチモーダルトランスベースフュージョンネットワーク
Authors: Yijie Jin,
Abstract要約: マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Sentiment Analysis (MSA) leverages multiple data modals to analyze human sentiment. Existing MSA models generally employ cutting-edge multimodal fusion and representation learning-based methods to promote MSA capability. However, there are two key challenges: (i) in existing multimodal fusion methods, the decoupling of modal combinations and tremendous parameter redundancy, lead to insufficient fusion performance and efficiency; (ii) a challenging trade-off exists between representation capability and computational overhead in unimodal feature extractors and encoders. Our proposed GSIFN incorporates two main components to solve these problems: (i) a graph-structured and interlaced-masked multimodal Transformer. It adopts the Interlaced Mask mechanism to construct robust multimodal graph embedding, achieve all-modal-in-one Transformer-based fusion, and greatly reduce the computational overhead; (ii) a self-supervised learning framework with low computational overhead and high performance, which utilizes a parallelized LSTM with matrix memory to enhance non-verbal modal features for unimodal label generation. Evaluated on the MSA datasets CMU-MOSI, CMU-MOSEI, and CH-SIMS, GSIFN demonstrates superior performance with significantly lower computational overhead compared with previous state-of-the-art models.
Abstract（参考訳）: マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。しかし、主な課題は2つある。 (i) 既存の多モード核融合法において、モーダル結合と膨大なパラメータ冗長性の分離は、核融合性能と効率を低下させる。 (II) 単一特徴抽出器とエンコーダにおける表現能力と計算オーバーヘッドとの間には、困難なトレードオフが存在する。提案するGSIFNには2つの主成分が組み込まれている。 (i)グラフ構造化・インターレース化マルチモーダルトランス。これはInterlaced Maskメカニズムを採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。 (II) 計算オーバーヘッドの少ない自己教師あり学習フレームワークで, 並列化LSTMと行列メモリを併用し, ラベル生成のための非言語的モーダル特性を向上する。 MSAデータセットであるCMU-MOSI、CMU-MOSEI、CH-SIMSに基づいて評価した結果、GSIFNは従来の最先端モデルに比べて計算オーバーヘッドが大幅に低い性能を示した。

関連論文リスト

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文参考訳（メタデータ） (2025-09-03T17:29:50Z)
SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality [52.948791050405525]
モーダルを欠くマルチモーダル学習のためのシンプルで強力なフレームワークであるSimMLMを提案する。 SimMLMは、動的で学習可能なゲーティング機構を備えたDMoME(Dynamic Mixture of Modality Experts)アーキテクチャで構成されている。 SimMLMの主な革新はMoFe(MoFe)ランキングの損失の増加であり、より多くのモダリティが利用可能になるにつれてタスクの精度が向上または安定し続けることを保証する。
論文参考訳（メタデータ） (2025-07-25T13:39:34Z)
Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs [11.261099213520158]
マルチモーダル・センティメント・アナリティクス(MSA)は、感情を認識するためにマルチモーダル情報を統合する急速に発展する分野である。 MSAの主な課題はマルチモーダル融合であり、主にマルチモーダル変換器(MulT)によって対処される。本研究では,MulTsが階層的モーダルワイドなヘテロジニアスグラフ(HMHGs)であることを示すとともに,MulTsのグラフ構造表現パターンを導入する。このパターンに基づいて,GsiT (Graph-Structued and Interlaced-Masked Multimodal Transformer) を設計するためのInterlaced Mask (IM) 機構を提案する。
論文参考訳（メタデータ） (2025-05-02T07:18:00Z)
HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding [67.24430397016275]
そこで本稿では,マルチモーダル入力を早期に融合し,自動回帰方式で視覚的指示に応答できる新しいアーリーフュージョンLMMを提案する。提案モデルでは,1つの変圧器を用いた他のLMMと比較して優れた性能を示し,合成LMMによる性能ギャップを著しく狭めている。
論文参考訳（メタデータ） (2025-03-12T06:01:05Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-30T14:28:26Z)
FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。 FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-05-05T04:28:48Z)
MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。 MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文参考訳（メタデータ） (2022-12-29T20:49:58Z)
Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (2022-08-16T08:02:30Z)
A Study of Syntactic Multi-Modality in Non-Autoregressive Machine Translation [144.55713938260828]
非自己回帰的翻訳モデルでは、ターゲット翻訳のマルチモーダル分布を捉えることは困難である。我々はこれを短距離および長距離の構文的マルチモーダルに分解し、高度な損失関数を持つ最近のNATアルゴリズムを評価した。我々は,実世界のデータセットにおいて,複雑な構文的多モード性を扱うために,新たな損失関数を設計する。
論文参考訳（メタデータ） (2022-07-09T06:48:10Z)
Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文参考訳（メタデータ） (2021-11-23T16:43:49Z)
Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文参考訳（メタデータ） (2021-09-01T14:45:16Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。