論文の概要: MMSFormer: Multimodal Transformer for Material and Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2309.04001v3
- Date: Wed, 17 Jan 2024 01:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 20:49:54.659339
- Title: MMSFormer: Multimodal Transformer for Material and Semantic Segmentation
- Title(参考訳): mmsformer: 材料と意味セグメンテーションのためのマルチモーダルトランスフォーマー
- Authors: Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif
- Abstract要約: 本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal TransFormer)と呼ばれる新たなモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
- 参考スコア(独自算出の注目度): 18.17649683468377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging information across diverse modalities is known to enhance
performance on multimodal segmentation tasks. However, effectively fusing
information from different modalities remains challenging due to the unique
characteristics of each modality. In this paper, we propose a novel fusion
strategy that can effectively fuse information from different modality
combinations. We also propose a new model named Multi-Modal Segmentation
TransFormer (MMSFormer) that incorporates the proposed fusion strategy to
perform multimodal material and semantic segmentation tasks. MMSFormer
outperforms current state-of-the-art models on three different datasets. As we
begin with only one input modality, performance improves progressively as
additional modalities are incorporated, showcasing the effectiveness of the
fusion block in combining useful information from diverse input modalities.
Ablation studies show that different modules in the fusion block are crucial
for overall model performance. Furthermore, our ablation studies also highlight
the capacity of different input modalities to improve performance in the
identification of different types of materials. The code and pretrained models
will be made available at https://github.com/csiplab/MMSFormer.
- Abstract(参考訳): 多様なモダリティにまたがる情報を活用することで、マルチモーダルセグメンテーションタスクの性能を高めることが知られている。
しかし,各モダリティのユニークな特徴から,異なるモダリティの情報を効果的に活用することは依然として困難である。
本稿では,異なるモードの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,提案手法を組み込んだマルチモーダルセグメンテーショントランス(mmsformer)という新しいモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
1つの入力モダリティのみから始めると、追加のモダリティが組み込まれるにつれて、性能が徐々に向上し、多様な入力モダリティから有用な情報を組み合わせて融合ブロックの有効性を示す。
アブレーション研究では、融合ブロック内の異なるモジュールが全体のモデル性能に不可欠であることが示されている。
さらに, 各種材料の識別性能を向上させるため, 異なる入力モードの容量に着目したアブレーション研究を行った。
コードと事前訓練されたモデルはhttps://github.com/csiplab/MMSFormer.comで入手できる。
関連論文リスト
- Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - CREMA: Multimodal Compositional Video Reasoning via Efficient Modular
Adaptation and Fusion [65.3593129253195]
CREMAはビデオ推論に新しいモダリティを注入するための効率的なフレームワークである。
本稿では,ビデオ3D,ビデオオーディオ,ビデオ言語推論タスクについて検証する。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Multimodal Action Quality Assessment [40.10252351858076]
アクション品質アセスメント(AQA)とは、アクションがどれだけうまく実行されるかを評価することである。
我々は、AQAは視覚情報に強く依存しているが、オーディオはスコアの回帰精度を向上させるのに有用な補完情報であると主張している。
本稿では,モーダリティ固有情報と混合モーダリティ情報を個別にモデル化するプログレッシブ・アダプティブ・マルチモーダル・フュージョン・ネットワーク(PAMFN)を提案する。
論文 参考訳(メタデータ) (2024-01-31T15:37:12Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MM-GEF: Multi-modal representation meet collaborative filtering [51.04679619309803]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - MSAF: Multimodal Split Attention Fusion [6.460517449962825]
我々は,すべてのモダリティにまたがるより帰属的な特徴を強調する新しいマルチモーダル融合モジュールを提案する。
提案手法は,各タスクにおける競合的な結果を達成し,アプリケーション固有のネットワークやマルチモーダル融合ベンチマークより優れている。
論文 参考訳(メタデータ) (2020-12-13T22:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。