論文の概要: Cross-Modal Knowledge Transfer Without Task-Relevant Source Data
- arxiv url: http://arxiv.org/abs/2209.04027v1
- Date: Thu, 8 Sep 2022 20:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:47:33.346005
- Title: Cross-Modal Knowledge Transfer Without Task-Relevant Source Data
- Title(参考訳): タスク関連ソースデータのないクロスモーダルな知識伝達
- Authors: Sk Miraj Ahmed, Suhas Lohit, Kuan-Chuan Peng, Michael J. Jones and
Amit K. Roy-Chowdhury
- Abstract要約: 深度と赤外線データのためのコンピュータビジョンとディープラーニングシステムの構築が重要である。
メモリやプライバシなどの理由から、ソースデータにアクセスできない場合もある。
Source-free Cross-modal KnowledgE Transfer for this challenge task。
- 参考スコア(独自算出の注目度): 35.23844505638355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cost-effective depth and infrared sensors as alternatives to usual RGB
sensors are now a reality, and have some advantages over RGB in domains like
autonomous navigation and remote sensing. As such, building computer vision and
deep learning systems for depth and infrared data are crucial. However, large
labeled datasets for these modalities are still lacking. In such cases,
transferring knowledge from a neural network trained on a well-labeled large
dataset in the source modality (RGB) to a neural network that works on a target
modality (depth, infrared, etc.) is of great value. For reasons like memory and
privacy, it may not be possible to access the source data, and knowledge
transfer needs to work with only the source models. We describe an effective
solution, SOCKET: SOurce-free Cross-modal KnowledgE Transfer for this
challenging task of transferring knowledge from one source modality to a
different target modality without access to task-relevant source data. The
framework reduces the modality gap using paired task-irrelevant data, as well
as by matching the mean and variance of the target features with the batch-norm
statistics that are present in the source models. We show through extensive
experiments that our method significantly outperforms existing source-free
methods for classification tasks which do not account for the modality gap.
- Abstract(参考訳): 通常のRGBセンサーに代わるコスト効率の高い深度センサーと赤外線センサーは現実のものとなり、自律ナビゲーションやリモートセンシングといった領域ではRGBよりもいくつかの利点がある。
そのため、深度と赤外線データのためのコンピュータビジョンとディープラーニングシステムの構築が重要である。
しかし、これらのモダリティに対する大きなラベル付きデータセットはまだ不足している。
そのような場合、ソースモダリティ(rgb)のよくラベルされた大規模データセットでトレーニングされたニューラルネットワークから、ターゲットモダリティ(深さ、赤外線など)で動作するニューラルネットワークへの知識の転送は、非常に有用である。
メモリやプライバシといった理由から、ソースデータへのアクセスは不可能であり、知識転送はソースモデルのみで動作する必要がある。
タスク関連ソースデータにアクセスすることなく、あるソースのモダリティから異なるターゲットのモダリティへ知識を転送する、この難しいタスクについて、SOCKET: SOurce-free Cross-modal KnowledgE Transferについて説明する。
このフレームワークは、ペア化されたタスク関連データを用いてモダリティギャップを減らし、ターゲット特徴の平均と分散と、ソースモデルに存在するバッチノルム統計とをマッチングする。
提案手法は,モーダリティのギャップを考慮せずに,既存の分類タスクのソースフリー手法を著しく上回っていることを示す。
関連論文リスト
- Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge [11.905387325966311]
本稿では、RGB画像から抽出した新しいデータに、RGB画像に基づいて訓練された大規模な物体検出モデルを適用することに焦点を当てる。
モーダリティ変換器 (ModTr) を, 大規模モデルを新しいモーダリティに微調整する一般的な手法の代替として提案する。
論文 参考訳(メタデータ) (2024-04-01T21:28:50Z) - Source-Free Cross-Modal Knowledge Transfer by Unleashing the Potential
of Task-Irrelevant Data [9.195524787980409]
ソースフリーのクロスモーダルな知識伝達は重要な課題ですが、難しい作業です。
我々は、ソースフリーなクロスモーダルな知識伝達を促進するために、ペア化されたTIデータの可能性を解き放つためのフレームワークを提案する。
提案手法は,3つのデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-10T09:02:24Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation [9.198120596225968]
計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
論文 参考訳(メタデータ) (2023-08-11T09:02:03Z) - Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。
教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。
提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-08-26T09:35:20Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Auto-Transfer: Learning to Route Transferrable Representations [77.30427535329571]
本稿では,適切なターゲット表現にソース表現をルートする方法を自動学習する,新しい対向型マルチアームバンディット手法を提案する。
最先端の知識伝達手法と比較すると,5%以上の精度向上が期待できる。
論文 参考訳(メタデータ) (2022-02-02T13:09:27Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Unsupervised Domain Adaptation through Inter-modal Rotation for RGB-D
Object Recognition [31.24587317555857]
本稿では,RGBと深度画像のモーダル間関係を利用して,合成領域から実領域へのシフトを低減する新しいRGB-D DA法を提案する。
提案手法は,主認識タスクに加えて,RGBと深度画像の相対的回転を予測するプリテキストタスクである畳み込みニューラルネットワークを訓練することで解決する。
論文 参考訳(メタデータ) (2020-04-21T13:53:55Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。