Fugu-MT 論文翻訳(概要): Revisiting Cross-Modal Knowledge Distillation: A Disentanglement Approach for RGBD Semantic Segmentation

論文の概要: Revisiting Cross-Modal Knowledge Distillation: A Disentanglement Approach for RGBD Semantic Segmentation

arxiv url: http://arxiv.org/abs/2505.24361v1
Date: Fri, 30 May 2025 08:53:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.861086
Title: Revisiting Cross-Modal Knowledge Distillation: A Disentanglement Approach for RGBD Semantic Segmentation
Title（参考訳）: クロスモーダルな知識蒸留の再検討:RGBDセマンティックセマンティックセグメンテーションにおけるアンタングル化アプローチ
Authors: Roger Ferrod, Cássio F. Dantas, Luigi Di Caro, Dino Ienco,
Abstract要約: RGBDセマンティックセグメンテーションのためのクロスモーダルな知識蒸留フレームワークであるCroDiNo-KD(Cross-Modal Disentanglement: a New Outlook on Knowledge Distillation)を紹介する。提案手法は, アンタングル表現, コントラスト学習, およびデカップリングデータ拡張を利用して, 単一モードのRGBとDepthモデルを同時に学習する。本研究は,CroDiNo-KDの品質を実証し,従来の教師/学生のパラダイムを再考し,マルチモーダルデータから単一モーダルニューラルネットワークへ情報を抽出することを提案する。
参考スコア（独自算出の注目度）: 4.7859023148002215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal RGB and Depth (RGBD) data are predominant in many domains such as robotics, autonomous driving and remote sensing. The combination of these multi-modal data enhances environmental perception by providing 3D spatial context, which is absent in standard RGB images. Although RGBD multi-modal data can be available to train computer vision models, accessing all sensor modalities during the inference stage may be infeasible due to sensor failures or resource constraints, leading to a mismatch between data modalities available during training and inference. Traditional Cross-Modal Knowledge Distillation (CMKD) frameworks, developed to address this task, are typically based on a teacher/student paradigm, where a multi-modal teacher distills knowledge into a single-modality student model. However, these approaches face challenges in teacher architecture choices and distillation process selection, thus limiting their adoption in real-world scenarios. To overcome these issues, we introduce CroDiNo-KD (Cross-Modal Disentanglement: a New Outlook on Knowledge Distillation), a novel cross-modal knowledge distillation framework for RGBD semantic segmentation. Our approach simultaneously learns single-modality RGB and Depth models by exploiting disentanglement representation, contrastive learning and decoupled data augmentation with the aim to structure the internal manifolds of neural network models through interaction and collaboration. We evaluated CroDiNo-KD on three RGBD datasets across diverse domains, considering recent CMKD frameworks as competitors. Our findings illustrate the quality of CroDiNo-KD, and they suggest reconsidering the conventional teacher/student paradigm to distill information from multi-modal data to single-modality neural networks.
Abstract（参考訳）: マルチモーダルRGBおよびDepth(RGBD)データは、ロボット工学、自律運転、リモートセンシングなど、多くの領域で支配されている。これらのマルチモーダルデータの組み合わせは、標準RGB画像にはない3次元空間コンテキストを提供することで、環境認識を高める。 RGBDのマルチモーダルデータはコンピュータビジョンモデルをトレーニングするために利用できるが、推論段階ですべてのセンサモードにアクセスすることは、センサーの故障やリソースの制約のために不可能になり、トレーニング中に利用可能なデータモダリティと推論の間のミスマッチにつながる可能性がある。この課題に対処するために開発された伝統的なクロスモーダル知識蒸留(CMKD)フレームワークは、典型的には教師/学生のパラダイムに基づいており、マルチモーダルの教師が知識を単一モダリティの学生モデルに蒸留する。しかし、これらのアプローチは、教師の建築選択と蒸留プロセスの選択において課題に直面しており、現実のシナリオでの採用を制限している。これらの問題を克服するために,RGBDセマンティックセグメンテーションのための新しいクロスモーダル知識蒸留フレームワークであるCroDiNo-KD(Cross-Modal Disentanglement: a New Outlook on Knowledge Distillation)を紹介する。提案手法は,ニューラルネットワークモデルの内部多様体を相互作用と協調によって構築することを目的として,アンタングル表現,コントラスト学習,デカップリングデータ拡張を利用して,単一モードのRGBとDepthモデルを同時に学習する。我々は,最近のCMKDフレームワークを競合として考慮し,さまざまな領域にわたる3つのRGBDデータセット上でCroDiNo-KDを評価した。本研究は,CroDiNo-KDの品質を実証し,従来の教師/学生のパラダイムを再考し,マルチモーダルデータから単一モーダルニューラルネットワークへ情報を抽出することを提案する。

関連論文リスト

Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。 GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-14T16:09:38Z)
DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。 DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文参考訳（メタデータ） (2024-08-05T13:44:15Z)
XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文参考訳（メタデータ） (2024-05-28T03:00:58Z)
Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文参考訳（メタデータ） (2024-01-27T19:44:15Z)
On Correlated Knowledge Distillation for Monitoring Human Pose with Radios [41.74439665339141]
我々は,無線周波数(RF)センシング技術と相関知識蒸留(CKD)理論を結合させることにより,新しいアイデアの実現可能性を検討するための簡易な実験ベッドを提案し,開発する。提案したCKDフレームワークは,ロバストな"Teacher"モデルからパラメータ化された"Student"モデルへの知識の伝達とヒューズを行う。
論文参考訳（メタデータ） (2023-05-24T07:34:49Z)
Continual Vision-Language Representation Learning with Off-Diagonal Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文参考訳（メタデータ） (2023-05-11T08:04:46Z)
Motor Imagery Decoding Using Ensemble Curriculum Learning and Collaborative Training [11.157243900163376]
マルチオブジェクトEEGデータセットは、いくつかの種類のドメインシフトを示す。これらの領域シフトは、堅牢なクロスオブジェクトの一般化を妨げる。複数の特徴抽出器を組み込んだ2段階モデルアンサンブルアーキテクチャを提案する。我々のモデルアンサンブルアプローチはカリキュラム学習と協調学習の力を組み合わせたものであることを実証する。
論文参考訳（メタデータ） (2022-11-21T13:45:44Z)
CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文参考訳（メタデータ） (2022-08-26T06:06:09Z)
Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。 5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2020-08-26T06:01:05Z)
Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2020-01-06T20:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。