論文の概要: Multimodal Transformer for Material Segmentation
- arxiv url: http://arxiv.org/abs/2309.04001v1
- Date: Thu, 7 Sep 2023 20:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 16:46:02.767844
- Title: Multimodal Transformer for Material Segmentation
- Title(参考訳): 材料セグメンテーション用マルチモーダル変圧器
- Authors: Md Kaykobad Reza (1), Ashley Prater-Bennette (2), M. Salman Asif (1)
((1) University of California, Riverside, (2) Air Force Research Laboratory)
- Abstract要約: RGB、線形偏光角(AoLP)、線形偏光度(DoLP)、近赤外(NIR)の4つのモードから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal Transformer)と呼ばれる新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging information across diverse modalities is known to enhance
performance on multimodal segmentation tasks. However, effectively fusing
information from different modalities remains challenging due to the unique
characteristics of each modality. In this paper, we propose a novel fusion
strategy that can effectively fuse information from different combinations of
four different modalities: RGB, Angle of Linear Polarization (AoLP), Degree of
Linear Polarization (DoLP) and Near-Infrared (NIR). We also propose a new model
named Multi-Modal Segmentation Transformer (MMSFormer) that incorporates the
proposed fusion strategy to perform multimodal material segmentation. MMSFormer
achieves 52.05% mIoU outperforming the current state-of-the-art on Multimodal
Material Segmentation (MCubeS) dataset. For instance, our method provides
significant improvement in detecting gravel (+10.4%) and human (+9.1%) classes.
Ablation studies show that different modules in the fusion block are crucial
for overall model performance. Furthermore, our ablation studies also highlight
the capacity of different input modalities to improve performance in the
identification of different types of materials. The code and pretrained models
will be made available at https://github.com/csiplab/MMSFormer.
- Abstract(参考訳): 多様なモダリティにまたがる情報を活用することで、マルチモーダルセグメンテーションタスクの性能を高めることが知られている。
しかし,各モダリティのユニークな特徴から,異なるモダリティの情報を効果的に活用することは依然として困難である。
本稿では,RGB,直線偏光角(AoLP),直線偏光度(DoLP),近赤外線(NIR)の4つの異なる組み合わせから情報を効果的に融合する新しい融合戦略を提案する。
また,マルチモーダルセグメンテーションを行うための核融合戦略を組み込んだマルチモーダルセグメンテーショントランスフォーマ (mmsformer) という新しいモデルを提案する。
MMSFormerは、現在のMCubeS(Multimodal Materials Segmentation)データセットよりも52.05%のmIoUを実現している。
例えば,砂利 (+10.4%) および人 (+9.1%) クラスの検出において,本手法は大幅な改善をもたらす。
アブレーション研究では、融合ブロック内の異なるモジュールが全体のモデル性能に不可欠であることが示されている。
さらに, 各種材料の識別性能を向上させるため, 異なる入力モードの容量に着目したアブレーション研究を行った。
コードと事前訓練されたモデルはhttps://github.com/csiplab/MMSFormer.comで入手できる。
関連論文リスト
- Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - CREMA: Multimodal Compositional Video Reasoning via Efficient Modular
Adaptation and Fusion [65.3593129253195]
CREMAはビデオ推論に新しいモダリティを注入するための効率的なフレームワークである。
本稿では,ビデオ3D,ビデオオーディオ,ビデオ言語推論タスクについて検証する。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Multimodal Action Quality Assessment [40.10252351858076]
アクション品質アセスメント(AQA)とは、アクションがどれだけうまく実行されるかを評価することである。
我々は、AQAは視覚情報に強く依存しているが、オーディオはスコアの回帰精度を向上させるのに有用な補完情報であると主張している。
本稿では,モーダリティ固有情報と混合モーダリティ情報を個別にモデル化するプログレッシブ・アダプティブ・マルチモーダル・フュージョン・ネットワーク(PAMFN)を提案する。
論文 参考訳(メタデータ) (2024-01-31T15:37:12Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MM-GEF: Multi-modal representation meet collaborative filtering [51.04679619309803]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - MSAF: Multimodal Split Attention Fusion [6.460517449962825]
我々は,すべてのモダリティにまたがるより帰属的な特徴を強調する新しいマルチモーダル融合モジュールを提案する。
提案手法は,各タスクにおける競合的な結果を達成し,アプリケーション固有のネットワークやマルチモーダル融合ベンチマークより優れている。
論文 参考訳(メタデータ) (2020-12-13T22:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。