Fugu-MT 論文翻訳(概要): Contrastive Learning-Based Spectral Knowledge Distillation for Multi-Modality and Missing Modality Scenarios in Semantic Segmentation

論文の概要: Contrastive Learning-Based Spectral Knowledge Distillation for Multi-Modality and Missing Modality Scenarios in Semantic Segmentation

arxiv url: http://arxiv.org/abs/2312.02240v1
Date: Mon, 4 Dec 2023 10:27:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 17:59:53.155952
Title: Contrastive Learning-Based Spectral Knowledge Distillation for Multi-Modality and Missing Modality Scenarios in Semantic Segmentation
Title（参考訳）: セマンティックセグメンテーションにおけるマルチモーダルと欠落モードシナリオに対するコントラスト学習に基づくスペクトル知識蒸留
Authors: Aniruddh Sikdar, Jayant Teotia, Suresh Sundaram
Abstract要約: CSK-Netと呼ばれる新しいマルチモーダル融合手法を提案する。対照的な学習に基づくスペクトル知識蒸留技術を用いる。実験の結果、CSK-Netはマルチモーダルタスクや欠落したモダリティにおいて最先端のモデルを上回ることがわかった。
参考スコア（独自算出の注目度）: 2.491548070992611
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Improving the performance of semantic segmentation models using multispectral information is crucial, especially for environments with low-light and adverse conditions. Multi-modal fusion techniques pursue either the learning of cross-modality features to generate a fused image or engage in knowledge distillation but address multimodal and missing modality scenarios as distinct issues, which is not an optimal approach for multi-sensor models. To address this, a novel multi-modal fusion approach called CSK-Net is proposed, which uses a contrastive learning-based spectral knowledge distillation technique along with an automatic mixed feature exchange mechanism for semantic segmentation in optical (EO) and infrared (IR) images. The distillation scheme extracts detailed textures from the optical images and distills them into the optical branch of CSK-Net. The model encoder consists of shared convolution weights with separate batch norm (BN) layers for both modalities, to capture the multi-spectral information from different modalities of the same objects. A Novel Gated Spectral Unit (GSU) and mixed feature exchange strategy are proposed to increase the correlation of modality-shared information and decrease the modality-specific information during the distillation process. Comprehensive experiments show that CSK-Net surpasses state-of-the-art models in multi-modal tasks and for missing modalities when exclusively utilizing IR data for inference across three public benchmarking datasets. For missing modality scenarios, the performance increase is achieved without additional computational costs compared to the baseline segmentation models.
Abstract（参考訳）: マルチスペクトル情報を用いたセマンティクスセグメンテーションモデルの性能向上は,特に低照度環境と悪条件環境において重要である。マルチモーダル融合技術は、融合画像を生成するためにクロスモーダル特徴を学習するか、知識蒸留を行うかのどちらかを追求するが、マルチモーダルと欠如したモーダルシナリオを異なる問題として扱う。これに対処するために,光(eo)画像と赤外線(ir)画像における意味セグメンテーションのための混合特徴交換機構と対比学習に基づくスペクトル知識蒸留技術を用いた,csk-netと呼ばれる新しいマルチモーダル融合手法を提案する。蒸留方式は、光学画像から詳細なテクスチャを抽出し、CSK-Netの光学枝に蒸留する。モデルエンコーダは、共有畳み込み重みと、両方のモードに対して別々のバッチノルム(BN)層から構成され、同じオブジェクトの異なるモードからマルチスペクトル情報をキャプチャする。新たなゲートスペクトル単位 (gsu) と混合特徴交換戦略を提案し, 蒸留過程におけるモダリティ共有情報の相関性を高め, モダリティ固有情報を減少させる。総合的な実験により、CSK-Netは3つの公開ベンチマークデータセットでの推論にIRデータのみを利用する場合、マルチモーダルタスクやモダリティの欠如において最先端モデルを上回ることが示されている。モダリティの欠如のシナリオでは、ベースラインセグメンテーションモデルと比較して計算コストが増すことなく性能が向上する。

関連論文リスト

MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
Multiscale Color Guided Attention Ensemble Classifier for Age-Related Macular Degeneration using Concurrent Fundus and Optical Coherence Tomography Images [1.159256777373941]
本稿では,移動学習に基づく注意機構を組み込んだモダリティ特化多スケールカラースペースの組込みを提案する。 MCGAEc法の性能を解析するために,Project Macula for AMDから公開されているマルチモーダルデータセットを活用し,既存のモデルと比較した。
論文参考訳（メタデータ） (2024-09-01T13:17:45Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Learning transformer-based heterogeneously salient graph representation for multimodal remote sensing image classification [42.15709954199397]
本稿では,変圧器を用いたヘテロジニアサリエントグラフ表現法(THSGR)を提案する。まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。自己アテンションフリーなマルチ畳み込み変調器は、効果的かつ効率的な長期依存性モデリングのために設計されている。
論文参考訳（メタデータ） (2023-11-17T04:06:20Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Fusion of Infrared and Visible Images based on Spatial-Channel Attentional Mechanism [3.388001684915793]
Infrared and visible image fusion (IVIF) の革新的アプローチであるAMFusionNetを提案する。可視光源からのテクスチャ特徴と赤外線画像からの熱的詳細を同化することにより,包括的情報に富んだ画像を生成する。提案手法は, 品質と量の観点から, 最先端のアルゴリズムより優れている。
論文参考訳（メタデータ） (2023-08-25T21:05:11Z)
RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。 RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文参考訳（メタデータ） (2022-09-26T07:18:00Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Image-specific Convolutional Kernel Modulation for Single Image Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-11-16T11:05:10Z)
Contrastive Multiview Coding with Electro-optics for SAR Semantic Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-08-31T23:55:41Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)
Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2020-01-06T20:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。