論文の概要: Delivering Arbitrary-Modal Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.01480v1
- Date: Thu, 2 Mar 2023 18:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 12:57:21.908771
- Title: Delivering Arbitrary-Modal Semantic Segmentation
- Title(参考訳): 任意モードセマンティックセマンティックセグメンテーションの提供
- Authors: Jiaming Zhang, Ruiping Liu, Hao Shi, Kailun Yang, Simon Rei{\ss},
Kunyu Peng, Haodong Fu, Kaiwei Wang, Rainer Stiefelhagen
- Abstract要約: 任意のクロスモーダルセグメンテーションモデルCMNeXtを提案する。
CMNeXtは後続のRGB表現との融合のために任意のモダリティから有効情報を抽出する。
DeLiVERデータセットでは、クアッドモーダルCMNeXtはmIoUで66.30%まで上昇し、モノモーダルベースラインに比べて+9.10%上昇する。
- 参考スコア(独自算出の注目度): 25.72171110516597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion can make semantic segmentation more robust. However, fusing
an arbitrary number of modalities remains underexplored. To delve into this
problem, we create the DeLiVER arbitrary-modal segmentation benchmark, covering
Depth, LiDAR, multiple Views, Events, and RGB. Aside from this, we provide this
dataset in four severe weather conditions as well as five sensor failure cases
to exploit modal complementarity and resolve partial outages. To make this
possible, we present the arbitrary cross-modal segmentation model CMNeXt. It
encompasses a Self-Query Hub (SQ-Hub) designed to extract effective information
from any modality for subsequent fusion with the RGB representation and adds
only negligible amounts of parameters (~0.01M) per additional modality. On top,
to efficiently and flexibly harvest discriminative cues from the auxiliary
modalities, we introduce the simple Parallel Pooling Mixer (PPX). With
extensive experiments on a total of six benchmarks, our CMNeXt achieves
state-of-the-art performance on the DeLiVER, KITTI-360, MFNet, NYU Depth V2,
UrbanLF, and MCubeS datasets, allowing to scale from 1 to 81 modalities. On the
freshly collected DeLiVER, the quad-modal CMNeXt reaches up to 66.30% in mIoU
with a +9.10% gain as compared to the mono-modal baseline. The DeLiVER dataset
and our code are at: https://jamycheung.github.io/DELIVER.html.
- Abstract(参考訳): マルチモーダル融合はセマンティックセグメンテーションをより堅牢にする。
しかし、任意の数のモダリティを融合することは未定である。
この問題を解決するために、DeLiVERの任意のモーダルセグメンテーションベンチマークを作成し、Depth、LiDAR、複数ビュー、イベント、RGBをカバーする。
これとは別に、このデータセットを4つの厳しい気象条件と5つのセンサー故障事例で提供し、相互補完性を活用し、部分的停止を解決する。
これを可能にするために、任意のクロスモーダルセグメンテーションモデルCMNeXtを提案する。
自己クエリハブ(SQ-Hub)は、その後のRGB表現との融合のために任意のモダリティから有効情報を抽出し、追加のモダリティに対して無視可能な量のパラメータ(~0.01M)のみを追加するように設計されている。
さらに, 補助的モダリティから識別的手がかりを効率的かつ柔軟に抽出するために, 単純並列プーリングミキサー(ppx)を提案する。
CMNeXtは、合計6つのベンチマークに関する広範な実験により、DeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF、MCubeSデータセットの最先端のパフォーマンスを実現し、1から81のモダリティのスケールを可能にします。
新たに収集されたデリーバーでは、クアッドモーダルCMNeXtはmIoUで66.30%まで上昇し、モノモーダルベースラインに比べて+9.10%上昇した。
DeLiVERのデータセットとコードは以下のとおりです。
関連論文リスト
- Single-Model and Any-Modality for Video Object Tracking [88.69362572728218]
任意のモダリティに対して単一のパラメータセットのアンダーライン統一トラッカーであるUn-Trackを導入する。
提案手法は,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - RGB-X Object Detection via Scene-Specific Fusion Modules [10.583691362114473]
本稿では,事前学習した単一モードモデルの活用と融合が可能な,効率的かつモジュール化されたRGB-X融合ネットワークを提案する。
本実験は,RGB-熱的およびRGB-ゲート型データセットにおける既存の研究と比較して,本手法の優位性を実証するものである。
論文 参考訳(メタデータ) (2023-10-30T09:27:31Z) - AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile
Platform Real-Time RGB-D Semantic Segmentation [2.1028463367241033]
AsymFormerはリアルタイムRGB-Dセマンティックセグメンテーションのための新しいネットワークである。
計算資源の分布を最適化することにより、超流動パラメータの最小化を目標とする。
AsymFormerは65 FPSの推論速度を達成し、混合精度の量子化を実装した後、79 FPSの印象的な推論速度を達成する。
論文 参考訳(メタデータ) (2023-09-25T11:57:16Z) - Coarse-to-Fine Amodal Segmentation with Shape Prior [52.38348188589834]
アモーダルオブジェクトセグメンテーション(Amodal object segmentation)は、オブジェクトの可視部分と隠蔽部分の両方をセグメンテーションする、難しいタスクである。
本稿では、アモーダルセグメンテーションを段階的にモデル化することで、この問題に対処する、Coarse-to-Fine: C2F-Segという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-31T15:56:29Z) - CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance
Segmentation [81.24723674120455]
CalibNetは3つの単純なモジュール、動的インタラクティブカーネル(DIK)と重量共有融合(WSF)で構成されている。
実験の結果、CalibNetは、COME15K-Nテストセット上で320*480の入力サイズを持つ58.0% APという有望な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-16T16:49:59Z) - Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。
また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文 参考訳(メタデータ) (2023-04-21T05:52:50Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with
Transformers [36.49497394304525]
RGB-Xセマンティックセグメンテーションのための統合融合フレームワークCMXを提案する。
クロスモーダル・フィーチャー・リクティフィケーション・モジュール (CM-FRM) を用いてバイモーダル特徴を校正する。
我々はRGBを補完する5つのモード、すなわち深さ、熱、偏光、事象、LiDARを統一する。
論文 参考訳(メタデータ) (2022-03-09T16:12:08Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。