論文の概要: Multimodal Transformer for Material Segmentation
- arxiv url: http://arxiv.org/abs/2309.04001v2
- Date: Mon, 11 Sep 2023 19:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 16:09:35.087763
- Title: Multimodal Transformer for Material Segmentation
- Title(参考訳): 材料セグメンテーション用マルチモーダル変圧器
- Authors: Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif
- Abstract要約: RGB、線形偏光角(AoLP)、線形偏光度(DoLP)、近赤外(NIR)の4つのモードから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal Transformer)と呼ばれる新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 18.17649683468377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging information across diverse modalities is known to enhance
performance on multimodal segmentation tasks. However, effectively fusing
information from different modalities remains challenging due to the unique
characteristics of each modality. In this paper, we propose a novel fusion
strategy that can effectively fuse information from different combinations of
four different modalities: RGB, Angle of Linear Polarization (AoLP), Degree of
Linear Polarization (DoLP) and Near-Infrared (NIR). We also propose a new model
named Multi-Modal Segmentation Transformer (MMSFormer) that incorporates the
proposed fusion strategy to perform multimodal material segmentation. MMSFormer
achieves 52.05% mIoU outperforming the current state-of-the-art on Multimodal
Material Segmentation (MCubeS) dataset. For instance, our method provides
significant improvement in detecting gravel (+10.4%) and human (+9.1%) classes.
Ablation studies show that different modules in the fusion block are crucial
for overall model performance. Furthermore, our ablation studies also highlight
the capacity of different input modalities to improve performance in the
identification of different types of materials. The code and pretrained models
will be made available at https://github.com/csiplab/MMSFormer.
- Abstract(参考訳): 多様なモダリティにまたがる情報を活用することで、マルチモーダルセグメンテーションタスクの性能を高めることが知られている。
しかし,各モダリティのユニークな特徴から,異なるモダリティの情報を効果的に活用することは依然として困難である。
本稿では,RGB,直線偏光角(AoLP),直線偏光度(DoLP),近赤外線(NIR)の4つの異なる組み合わせから情報を効果的に融合する新しい融合戦略を提案する。
また,マルチモーダルセグメンテーションを行うための核融合戦略を組み込んだマルチモーダルセグメンテーショントランスフォーマ (mmsformer) という新しいモデルを提案する。
MMSFormerは、現在のMCubeS(Multimodal Materials Segmentation)データセットよりも52.05%のmIoUを実現している。
例えば,砂利 (+10.4%) および人 (+9.1%) クラスの検出において,本手法は大幅な改善をもたらす。
アブレーション研究では、融合ブロック内の異なるモジュールが全体のモデル性能に不可欠であることが示されている。
さらに, 各種材料の識別性能を向上させるため, 異なる入力モードの容量に着目したアブレーション研究を行った。
コードと事前訓練されたモデルはhttps://github.com/csiplab/MMSFormer.comで入手できる。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Multimodal Action Quality Assessment [40.10252351858076]
アクション品質アセスメント(AQA)とは、アクションがどれだけうまく実行されるかを評価することである。
我々は、AQAは視覚情報に強く依存しているが、オーディオはスコアの回帰精度を向上させるのに有用な補完情報であると主張している。
本稿では,モーダリティ固有情報と混合モーダリティ情報を個別にモデル化するプログレッシブ・アダプティブ・マルチモーダル・フュージョン・ネットワーク(PAMFN)を提案する。
論文 参考訳(メタデータ) (2024-01-31T15:37:12Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。