論文の概要: Revisiting Cross-Modal Knowledge Distillation: A Disentanglement Approach for RGBD Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.24361v1
- Date: Fri, 30 May 2025 08:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.861086
- Title: Revisiting Cross-Modal Knowledge Distillation: A Disentanglement Approach for RGBD Semantic Segmentation
- Title(参考訳): クロスモーダルな知識蒸留の再検討:RGBDセマンティックセマンティックセグメンテーションにおけるアンタングル化アプローチ
- Authors: Roger Ferrod, Cássio F. Dantas, Luigi Di Caro, Dino Ienco,
- Abstract要約: RGBDセマンティックセグメンテーションのためのクロスモーダルな知識蒸留フレームワークであるCroDiNo-KD(Cross-Modal Disentanglement: a New Outlook on Knowledge Distillation)を紹介する。
提案手法は, アンタングル表現, コントラスト学習, およびデカップリングデータ拡張を利用して, 単一モードのRGBとDepthモデルを同時に学習する。
本研究は,CroDiNo-KDの品質を実証し,従来の教師/学生のパラダイムを再考し,マルチモーダルデータから単一モーダルニューラルネットワークへ情報を抽出することを提案する。
- 参考スコア(独自算出の注目度): 4.7859023148002215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal RGB and Depth (RGBD) data are predominant in many domains such as robotics, autonomous driving and remote sensing. The combination of these multi-modal data enhances environmental perception by providing 3D spatial context, which is absent in standard RGB images. Although RGBD multi-modal data can be available to train computer vision models, accessing all sensor modalities during the inference stage may be infeasible due to sensor failures or resource constraints, leading to a mismatch between data modalities available during training and inference. Traditional Cross-Modal Knowledge Distillation (CMKD) frameworks, developed to address this task, are typically based on a teacher/student paradigm, where a multi-modal teacher distills knowledge into a single-modality student model. However, these approaches face challenges in teacher architecture choices and distillation process selection, thus limiting their adoption in real-world scenarios. To overcome these issues, we introduce CroDiNo-KD (Cross-Modal Disentanglement: a New Outlook on Knowledge Distillation), a novel cross-modal knowledge distillation framework for RGBD semantic segmentation. Our approach simultaneously learns single-modality RGB and Depth models by exploiting disentanglement representation, contrastive learning and decoupled data augmentation with the aim to structure the internal manifolds of neural network models through interaction and collaboration. We evaluated CroDiNo-KD on three RGBD datasets across diverse domains, considering recent CMKD frameworks as competitors. Our findings illustrate the quality of CroDiNo-KD, and they suggest reconsidering the conventional teacher/student paradigm to distill information from multi-modal data to single-modality neural networks.
- Abstract(参考訳): マルチモーダルRGBおよびDepth(RGBD)データは、ロボット工学、自律運転、リモートセンシングなど、多くの領域で支配されている。
これらのマルチモーダルデータの組み合わせは、標準RGB画像にはない3次元空間コンテキストを提供することで、環境認識を高める。
RGBDのマルチモーダルデータはコンピュータビジョンモデルをトレーニングするために利用できるが、推論段階ですべてのセンサモードにアクセスすることは、センサーの故障やリソースの制約のために不可能になり、トレーニング中に利用可能なデータモダリティと推論の間のミスマッチにつながる可能性がある。
この課題に対処するために開発された伝統的なクロスモーダル知識蒸留(CMKD)フレームワークは、典型的には教師/学生のパラダイムに基づいており、マルチモーダルの教師が知識を単一モダリティの学生モデルに蒸留する。
しかし、これらのアプローチは、教師の建築選択と蒸留プロセスの選択において課題に直面しており、現実のシナリオでの採用を制限している。
これらの問題を克服するために,RGBDセマンティックセグメンテーションのための新しいクロスモーダル知識蒸留フレームワークであるCroDiNo-KD(Cross-Modal Disentanglement: a New Outlook on Knowledge Distillation)を紹介する。
提案手法は,ニューラルネットワークモデルの内部多様体を相互作用と協調によって構築することを目的として,アンタングル表現,コントラスト学習,デカップリングデータ拡張を利用して,単一モードのRGBとDepthモデルを同時に学習する。
我々は,最近のCMKDフレームワークを競合として考慮し,さまざまな領域にわたる3つのRGBDデータセット上でCroDiNo-KDを評価した。
本研究は,CroDiNo-KDの品質を実証し,従来の教師/学生のパラダイムを再考し,マルチモーダルデータから単一モーダルニューラルネットワークへ情報を抽出することを提案する。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。
DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T13:44:15Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。