Fugu-MT 論文翻訳(概要): Delivering Arbitrary-Modal Semantic Segmentation

論文の概要: Delivering Arbitrary-Modal Semantic Segmentation

arxiv url: http://arxiv.org/abs/2303.01480v1
Date: Thu, 2 Mar 2023 18:41:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-03 12:57:21.908771
Title: Delivering Arbitrary-Modal Semantic Segmentation
Title（参考訳）: 任意モードセマンティックセマンティックセグメンテーションの提供
Authors: Jiaming Zhang, Ruiping Liu, Hao Shi, Kailun Yang, Simon Rei{\ss}, Kunyu Peng, Haodong Fu, Kaiwei Wang, Rainer Stiefelhagen
Abstract要約: 任意のクロスモーダルセグメンテーションモデルCMNeXtを提案する。 CMNeXtは後続のRGB表現との融合のために任意のモダリティから有効情報を抽出する。 DeLiVERデータセットでは、クアッドモーダルCMNeXtはmIoUで66.30%まで上昇し、モノモーダルベースラインに比べて+9.10%上昇する。
参考スコア（独自算出の注目度）: 25.72171110516597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal fusion can make semantic segmentation more robust. However, fusing an arbitrary number of modalities remains underexplored. To delve into this problem, we create the DeLiVER arbitrary-modal segmentation benchmark, covering Depth, LiDAR, multiple Views, Events, and RGB. Aside from this, we provide this dataset in four severe weather conditions as well as five sensor failure cases to exploit modal complementarity and resolve partial outages. To make this possible, we present the arbitrary cross-modal segmentation model CMNeXt. It encompasses a Self-Query Hub (SQ-Hub) designed to extract effective information from any modality for subsequent fusion with the RGB representation and adds only negligible amounts of parameters (~0.01M) per additional modality. On top, to efficiently and flexibly harvest discriminative cues from the auxiliary modalities, we introduce the simple Parallel Pooling Mixer (PPX). With extensive experiments on a total of six benchmarks, our CMNeXt achieves state-of-the-art performance on the DeLiVER, KITTI-360, MFNet, NYU Depth V2, UrbanLF, and MCubeS datasets, allowing to scale from 1 to 81 modalities. On the freshly collected DeLiVER, the quad-modal CMNeXt reaches up to 66.30% in mIoU with a +9.10% gain as compared to the mono-modal baseline. The DeLiVER dataset and our code are at: https://jamycheung.github.io/DELIVER.html.
Abstract（参考訳）: マルチモーダル融合はセマンティックセグメンテーションをより堅牢にする。しかし、任意の数のモダリティを融合することは未定である。この問題を解決するために、DeLiVERの任意のモーダルセグメンテーションベンチマークを作成し、Depth、LiDAR、複数ビュー、イベント、RGBをカバーする。これとは別に、このデータセットを4つの厳しい気象条件と5つのセンサー故障事例で提供し、相互補完性を活用し、部分的停止を解決する。これを可能にするために、任意のクロスモーダルセグメンテーションモデルCMNeXtを提案する。自己クエリハブ(SQ-Hub)は、その後のRGB表現との融合のために任意のモダリティから有効情報を抽出し、追加のモダリティに対して無視可能な量のパラメータ(~0.01M)のみを追加するように設計されている。さらに, 補助的モダリティから識別的手がかりを効率的かつ柔軟に抽出するために, 単純並列プーリングミキサー(ppx)を提案する。 CMNeXtは、合計6つのベンチマークに関する広範な実験により、DeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF、MCubeSデータセットの最先端のパフォーマンスを実現し、1から81のモダリティのスケールを可能にします。新たに収集されたデリーバーでは、クアッドモーダルCMNeXtはmIoUで66.30%まで上昇し、モノモーダルベースラインに比べて+9.10%上昇した。 DeLiVERのデータセットとコードは以下のとおりです。

関連論文リスト

MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-19T02:27:30Z)
Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-16T03:19:59Z)
Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文参考訳（メタデータ） (2024-05-02T17:59:57Z)
LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。 LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文参考訳（メタデータ） (2024-04-21T13:29:42Z)
Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文参考訳（メタデータ） (2023-11-27T14:17:41Z)
RGB-X Object Detection via Scene-Specific Fusion Modules [10.583691362114473]
本稿では,事前学習した単一モードモデルの活用と融合が可能な,効率的かつモジュール化されたRGB-X融合ネットワークを提案する。本実験は,RGB-熱的およびRGB-ゲート型データセットにおける既存の研究と比較して,本手法の優位性を実証するものである。
論文参考訳（メタデータ） (2023-10-30T09:27:31Z)
CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance Segmentation [88.50067783122559]
CalibNetは3つの単純なモジュール、動的インタラクティブカーネル(DIK)と重量共有融合(WSF)で構成されている。実験の結果、CalibNetは、COME15K-Nテストセット上で320*480の入力サイズを持つ58.0% APという有望な結果をもたらすことが示された。
論文参考訳（メタデータ） (2023-07-16T16:49:59Z)
Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文参考訳（メタデータ） (2023-04-21T05:52:50Z)
SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文参考訳（メタデータ） (2022-07-10T08:25:47Z)
Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文参考訳（メタデータ） (2020-12-23T15:23:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。