論文の概要: Delivering Arbitrary-Modal Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.01480v1
- Date: Thu, 2 Mar 2023 18:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 12:57:21.908771
- Title: Delivering Arbitrary-Modal Semantic Segmentation
- Title(参考訳): 任意モードセマンティックセマンティックセグメンテーションの提供
- Authors: Jiaming Zhang, Ruiping Liu, Hao Shi, Kailun Yang, Simon Rei{\ss},
Kunyu Peng, Haodong Fu, Kaiwei Wang, Rainer Stiefelhagen
- Abstract要約: 任意のクロスモーダルセグメンテーションモデルCMNeXtを提案する。
CMNeXtは後続のRGB表現との融合のために任意のモダリティから有効情報を抽出する。
DeLiVERデータセットでは、クアッドモーダルCMNeXtはmIoUで66.30%まで上昇し、モノモーダルベースラインに比べて+9.10%上昇する。
- 参考スコア(独自算出の注目度): 25.72171110516597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion can make semantic segmentation more robust. However, fusing
an arbitrary number of modalities remains underexplored. To delve into this
problem, we create the DeLiVER arbitrary-modal segmentation benchmark, covering
Depth, LiDAR, multiple Views, Events, and RGB. Aside from this, we provide this
dataset in four severe weather conditions as well as five sensor failure cases
to exploit modal complementarity and resolve partial outages. To make this
possible, we present the arbitrary cross-modal segmentation model CMNeXt. It
encompasses a Self-Query Hub (SQ-Hub) designed to extract effective information
from any modality for subsequent fusion with the RGB representation and adds
only negligible amounts of parameters (~0.01M) per additional modality. On top,
to efficiently and flexibly harvest discriminative cues from the auxiliary
modalities, we introduce the simple Parallel Pooling Mixer (PPX). With
extensive experiments on a total of six benchmarks, our CMNeXt achieves
state-of-the-art performance on the DeLiVER, KITTI-360, MFNet, NYU Depth V2,
UrbanLF, and MCubeS datasets, allowing to scale from 1 to 81 modalities. On the
freshly collected DeLiVER, the quad-modal CMNeXt reaches up to 66.30% in mIoU
with a +9.10% gain as compared to the mono-modal baseline. The DeLiVER dataset
and our code are at: https://jamycheung.github.io/DELIVER.html.
- Abstract(参考訳): マルチモーダル融合はセマンティックセグメンテーションをより堅牢にする。
しかし、任意の数のモダリティを融合することは未定である。
この問題を解決するために、DeLiVERの任意のモーダルセグメンテーションベンチマークを作成し、Depth、LiDAR、複数ビュー、イベント、RGBをカバーする。
これとは別に、このデータセットを4つの厳しい気象条件と5つのセンサー故障事例で提供し、相互補完性を活用し、部分的停止を解決する。
これを可能にするために、任意のクロスモーダルセグメンテーションモデルCMNeXtを提案する。
自己クエリハブ(SQ-Hub)は、その後のRGB表現との融合のために任意のモダリティから有効情報を抽出し、追加のモダリティに対して無視可能な量のパラメータ(~0.01M)のみを追加するように設計されている。
さらに, 補助的モダリティから識別的手がかりを効率的かつ柔軟に抽出するために, 単純並列プーリングミキサー(ppx)を提案する。
CMNeXtは、合計6つのベンチマークに関する広範な実験により、DeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF、MCubeSデータセットの最先端のパフォーマンスを実現し、1から81のモダリティのスケールを可能にします。
新たに収集されたデリーバーでは、クアッドモーダルCMNeXtはmIoUで66.30%まで上昇し、モノモーダルベースラインに比べて+9.10%上昇した。
DeLiVERのデータセットとコードは以下のとおりです。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-16T03:19:59Z) - Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。
まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。
次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文 参考訳(メタデータ) (2024-05-02T17:59:57Z) - LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - RGB-X Object Detection via Scene-Specific Fusion Modules [10.583691362114473]
本稿では,事前学習した単一モードモデルの活用と融合が可能な,効率的かつモジュール化されたRGB-X融合ネットワークを提案する。
本実験は,RGB-熱的およびRGB-ゲート型データセットにおける既存の研究と比較して,本手法の優位性を実証するものである。
論文 参考訳(メタデータ) (2023-10-30T09:27:31Z) - CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance Segmentation [88.50067783122559]
CalibNetは3つの単純なモジュール、動的インタラクティブカーネル(DIK)と重量共有融合(WSF)で構成されている。
実験の結果、CalibNetは、COME15K-Nテストセット上で320*480の入力サイズを持つ58.0% APという有望な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-16T16:49:59Z) - Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。
また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文 参考訳(メタデータ) (2023-04-21T05:52:50Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。