論文の概要: Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning
- arxiv url: http://arxiv.org/abs/2312.00360v2
- Date: Mon, 4 Dec 2023 04:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 12:03:52.578402
- Title: Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning
- Title(参考訳): dual-prompt learning による効率的なマルチモーダルセマンティクスセグメンテーション
- Authors: Shaohua Dong, Yunhe Feng, Qing Yang, Yan Huang, Dongfang Liu, Heng Fan
- Abstract要約: マルチモーダル(例えば、RGB-Depth/RGB-Thermal)融合は複雑なシーンにおけるセマンティックセグメンテーションを改善する大きな可能性を示している。
既存のアプローチはしばしば、複雑な機能融合戦略を持つデュアルブランチデコーダフレームワークを完全に微調整する。
本稿では、訓練効率の良いマルチモーダルセマンティックセマンティックセグメンテーションのための、驚くほどシンプルで効果的なデュアルプロンプト学習ネットワーク(DPLNet)を提案する。
- 参考スコア(独自算出の注目度): 22.82017440263235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal (e.g., RGB-Depth/RGB-Thermal) fusion has shown great potential for
improving semantic segmentation in complex scenes (e.g., indoor/low-light
conditions). Existing approaches often fully fine-tune a dual-branch
encoder-decoder framework with a complicated feature fusion strategy for
achieving multimodal semantic segmentation, which is training-costly due to the
massive parameter updates in feature extraction and fusion. To address this
issue, we propose a surprisingly simple yet effective dual-prompt learning
network (dubbed DPLNet) for training-efficient multimodal (e.g., RGB-D/T)
semantic segmentation. The core of DPLNet is to directly adapt a frozen
pre-trained RGB model to multimodal semantic segmentation, reducing parameter
updates. For this purpose, we present two prompt learning modules, comprising
multimodal prompt generator (MPG) and multimodal feature adapter (MFA). MPG
works to fuse the features from different modalities in a compact manner and is
inserted from shadow to deep stages to generate the multi-level multimodal
prompts that are injected into the frozen backbone, while MPG adapts prompted
multimodal features in the frozen backbone for better multimodal semantic
segmentation. Since both the MPG and MFA are lightweight, only a few trainable
parameters (3.88M, 4.4% of the pre-trained backbone parameters) are introduced
for multimodal feature fusion and learning. Using a simple decoder (3.27M
parameters), DPLNet achieves new state-of-the-art performance or is on a par
with other complex approaches on four RGB-D/T semantic segmentation datasets
while satisfying parameter efficiency. Moreover, we show that DPLNet is general
and applicable to other multimodal tasks such as salient object detection and
video semantic segmentation. Without special design, DPLNet outperforms many
complicated models. Our code will be available at
github.com/ShaohuaDong2021/DPLNet.
- Abstract(参考訳): マルチモーダル(例えば、RGB-Depth/RGB-Thermal)融合は複雑なシーン(例えば、屋内/低照度条件)におけるセマンティックセグメンテーションを改善する大きな可能性を示している。
既存のアプローチでは、マルチモーダルセマンティクスセグメンテーションを実現するための複雑な機能融合戦略を持つデュアルブランチエンコーダ-デコーダフレームワークを完全に微調整することが多い。
この問題に対処するために,訓練効率の高いマルチモーダル(例えばrgb-d/t)意味セグメンテーションのための,驚くほど単純で効果的なdplnetを提案する。
DPLNetの中核は、凍結した事前訓練されたRGBモデルをマルチモーダルなセマンティックセグメンテーションに直接適用し、パラメータ更新を減らすことである。
本研究では,MPG (Multimodal prompt generator) とMultimodal Feature Adapter (MFA) の2つのプロンプト学習モジュールを提案する。
MPGは、異なるモダリティをコンパクトな方法で融合させ、シャドウから深層ステージに挿入して、凍結したバックボーンに注入されるマルチレベルのマルチモーダルプロンプトを生成する。
mpgとmfaの両方が軽量であるため、マルチモーダル特徴の融合と学習のためにトレーニング可能なパラメータ(3.88m、4.4%)が導入された。
単純なデコーダ(3.27Mパラメータ)を使用することで、DPLNetは新たな最先端のパフォーマンスを達成するか、4つのRGB-D/Tセマンティックセマンティックセグメンテーションデータセットにおける他の複雑なアプローチと同等である。
さらに,dplnetは汎用的であり,salient object detectionやvideo semantic segmentationといった他のマルチモーダルタスクにも適用可能であることを示す。
特別な設計がなければ、dplnetは多くの複雑なモデルを上回る。
私たちのコードはgithub.com/ShaohuaDong2021/DPLNetで利用できます。
関連論文リスト
- MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes [0.0]
マルチモーダルなセマンティックセグメンテーション手法は、高い計算複雑性と低い推論速度に悩まされる。
本稿では,リアルタイムRGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。
CSFNetは最先端の手法と競合する精度を持ち、速度に関しては最先端の手法である。
論文 参考訳(メタデータ) (2024-07-01T14:34:32Z) - LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T14:35:25Z) - Condensing Multilingual Knowledge with Lightweight Language-Specific
Modules [52.973832863842546]
本稿では,Language-Specific Matrix Synthesis (LMS)法を紹介する。
このアプローチは、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。
複数のLSモジュールからの多言語知識を、Fuse Distillation (FD) 技術を用いて単一の共有モジュールに格納する。
論文 参考訳(メタデータ) (2023-05-23T12:21:38Z) - CEDNet: A Cascade Encoder-Decoder Network for Dense Prediction [23.142342401794302]
オブジェクト検出、インスタンスのセグメンテーション、セマンティックセグメンテーションといった密集した予測タスクには、マルチスケールの機能が不可欠である。
我々はCEDNetと呼ばれる,高密度mboxpredictionタスクに適した列挙型カスケードエンコーダデコーダネットワークを提案する。
CEDNetのすべてのステージは同じエンコーダ-デコーダ構造を共有し、デコーダ内でマルチスケールの機能融合を実行する。
論文 参考訳(メタデータ) (2023-02-13T02:03:55Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection [1.002712867721496]
RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
論文 参考訳(メタデータ) (2021-09-16T12:15:40Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。