Fugu-MT 論文翻訳(概要): Complementary Random Masking for RGB-Thermal Semantic Segmentation

論文の概要: Complementary Random Masking for RGB-Thermal Semantic Segmentation

arxiv url: http://arxiv.org/abs/2303.17386v2
Date: Mon, 4 Mar 2024 18:06:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 03:46:59.190569
Title: Complementary Random Masking for RGB-Thermal Semantic Segmentation
Title（参考訳）: RGB熱セマンティックセマンティックセグメンテーションのための補間ランダムマスキング
Authors: Ukcheol Shin, Kyunghyun Lee, In So Kweon, Jean Oh
Abstract要約: RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。 3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
参考スコア（独自算出の注目度）: 63.93784265195356
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: RGB-thermal semantic segmentation is one potential solution to achieve reliable semantic scene understanding in adverse weather and lighting conditions. However, the previous studies mostly focus on designing a multi-modal fusion module without consideration of the nature of multi-modality inputs. Therefore, the networks easily become over-reliant on a single modality, making it difficult to learn complementary and meaningful representations for each modality. This paper proposes 1) a complementary random masking strategy of RGB-T images and 2) self-distillation loss between clean and masked input modalities. The proposed masking strategy prevents over-reliance on a single modality. It also improves the accuracy and robustness of the neural network by forcing the network to segment and classify objects even when one modality is partially available. Also, the proposed self-distillation loss encourages the network to extract complementary and meaningful representations from a single modality or complementary masked modalities. Based on the proposed method, we achieve state-of-the-art performance over three RGB-T semantic segmentation benchmarks. Our source code is available at https://github.com/UkcheolShin/CRM_RGBTSeg.
Abstract（参考訳）: rgb-サーマルセマンティクスセグメンテーションは、悪天候や照明条件において、信頼できるセマンティクスシーン理解を実現する潜在的な解決策の1つである。しかし,従来の研究は主に,マルチモーダルな入力の性質を考慮せずに,マルチモーダルな融合モジュールの設計に重点を置いている。したがって、ネットワークは単一のモダリティに過剰依存し易くなり、各モダリティに対する相補的かつ有意義な表現を学ぶことが困難になる。本稿では, 1)RGB-T画像と相補的ランダムマスキング戦略 2) クリーンとマスキング入力の自己蒸留損失提案したマスキング戦略は,単一モードにおける過度信頼を防ぐ。また、1つのモダリティが部分的に利用可能である場合でも、ネットワークにオブジェクトの分割と分類を強制することで、ニューラルネットワークの精度と堅牢性も向上する。また, 自己蒸留損失は, ネットワークに対して, 相補的かつ有意義な表現を単一モダリティまたは相補的マスク様相から抽出することを促す。提案手法に基づき、3つのrgb-tセマンティクスセグメンテーションベンチマークにおいて最先端の性能を実現する。ソースコードはhttps://github.com/ukcheolshin/crm_rgbtsegで入手できます。

関連論文リスト

TASeg: Text-aware RGB-T Semantic Segmentation based on Fine-tuning Vision Foundation Models [26.983562312613877]
本稿では,ローランド適応(LoRA)ファインチューニング技術を用いたテキスト認識RGB-Tセグメンテーションフレームワークを提案する。具体的には,画像エンコーダにおける動的特徴融合モジュール (DFFM) を提案する。
論文参考訳（メタデータ） (2025-06-27T07:34:28Z)
HisynSeg: Weakly-Supervised Histopathological Image Segmentation via Image-Mixing Synthesis and Consistency Regularization [15.13875300007579]
HisynSegは画像混合合成と一貫性正規化に基づく弱教師付きセマンティックセマンティックセマンティクスフレームワークである。 HisynSegは3つのデータセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-30T13:10:48Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
SpiderMesh: Spatial-aware Demand-guided Recursive Meshing for RGB-T Semantic Segmentation [13.125707028339292]
本稿では,実用的なRGB-Tセグメンテーションのための空間対応需要誘導型再帰メッシュ(SpiderMesh)フレームワークを提案する。 SpiderMeshは、光学障害領域におけるコンテキストセマンティクスの不十分さを積極的に補償する。 MFNetとPST900データセットの実験は、SpiderMeshが標準的なRGB-Tセグメンテーションベンチマークで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2023-03-15T15:24:01Z)
Adaptive Convolutional Dictionary Network for CT Metal Artifact Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文参考訳（メタデータ） (2022-05-16T06:49:36Z)
Multi-Scale Cascading Network with Compact Feature Learning for RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文参考訳（メタデータ） (2020-12-12T15:39:11Z)
Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文参考訳（メタデータ） (2020-08-25T06:00:06Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。