論文の概要: MAC: ModAlity Calibration for Object Detection
- arxiv url: http://arxiv.org/abs/2310.09461v1
- Date: Sat, 14 Oct 2023 00:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 02:07:03.358460
- Title: MAC: ModAlity Calibration for Object Detection
- Title(参考訳): MAC: オブジェクト検出のためのModAlityキャリブレーション
- Authors: Yutian Lei, Jun Liu, Dong Huang
- Abstract要約: MAC(ModAlity)は、RGBモダリティで開発されたオブジェクト検出モデルに対して、ターゲットモダリティ入力を校正する効率的なパイプラインである。
ソースモダリティモデルとペア化されたターゲットから合成された事前知識を活用して、ターゲットモダリティモデルは、100%手動アノテーションを必要とするベースラインモデルよりも、同等またはより良いメトリクスに到達します。
- 参考スコア(独自算出の注目度): 7.8776212672618415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The flourishing success of Deep Neural Networks(DNNs) on RGB-input perception
tasks has opened unbounded possibilities for non-RGB-input perception tasks,
such as object detection from wireless signals, lidar scans, and infrared
images. Compared to the matured development pipeline of RGB-input (source
modality) models, developing non-RGB-input (target-modality) models from
scratch poses excessive challenges in the modality-specific network
design/training tricks and labor in the target-modality annotation. In this
paper, we propose ModAlity Calibration (MAC), an efficient pipeline for
calibrating target-modality inputs to the DNN object detection models developed
on the RGB (source) modality. We compose a target-modality-input model by
adding a small calibrator module ahead of a source-modality model and introduce
MAC training techniques to impose dense supervision on the calibrator. By
leveraging (1) prior knowledge synthesized from the source-modality model and
(2) paired {target, source} data with zero manual annotations, our
target-modality models reach comparable or better metrics than baseline models
that require 100% manual annotations. We demonstrate the effectiveness of MAC
by composing the WiFi-input, Lidar-input, and Thermal-Infrared-input models
upon the pre-trained RGB-input models respectively.
- Abstract(参考訳): RGB入力知覚タスクにおけるディープニューラルネットワーク(DNN)の成功は、無線信号からのオブジェクト検出、ライダースキャン、赤外線画像など、RGB入力認識タスクの非バウンドな可能性を開いた。
RGBインプット(ソースモダリティ)モデルの成熟した開発パイプラインと比較して、非RGBインプット(ターゲットモダリティ)モデルをスクラッチから開発することは、モダリティ固有のネットワーク設計/トレーニングのトリックやターゲットモダリティアノテーションの労力において過度な問題を引き起こす。
本稿では,RGBモダリティに基づくDNNオブジェクト検出モデルに対して,目標モダリティ入力を校正する効率的なパイプラインであるModAlity Calibration(MAC)を提案する。
我々は,ソースモダリティモデルの前に小さなキャリブレータモジュールを追加してターゲットモダリティ入力モデルを作成し,キャリブレータに密着した監督を課すためにmacトレーニング技術を導入する。
1) ソースモダリティモデルから合成された事前知識と(2) 手動アノテーションなしの<target, source}データを活用することにより, 対象モダリティモデルは100%手動アノテーションを必要とするベースラインモデルと同等あるいは優れたメトリクスに到達できる。
事前学習したRGB入力モデルに対して,WiFi入力,Lidar入力,熱赤外線入力モデルをそれぞれ構成し,MACの有効性を示す。
関連論文リスト
- Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。