論文の概要: Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection
- arxiv url: http://arxiv.org/abs/2309.16592v1
- Date: Thu, 28 Sep 2023 16:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:28:59.825929
- Title: Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection
- Title(参考訳): データ制約赤外物体検出におけるクロスモーダル知識を活用したテンソル分解
- Authors: Manish Sharma, Moitreya Chatterjee, Kuan-Chuan Peng, Suhas Lohit,
Michael Jones
- Abstract要約: 赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
- 参考スコア(独自算出の注目度): 22.60228799622782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary bottleneck towards obtaining good recognition performance in IR
images is the lack of sufficient labeled training data, owing to the cost of
acquiring such data. Realizing that object detection methods for the RGB
modality are quite robust (at least for some commonplace classes, like person,
car, etc.), thanks to the giant training sets that exist, in this work we seek
to leverage cues from the RGB modality to scale object detectors to the IR
modality, while preserving model performance in the RGB modality. At the core
of our method, is a novel tensor decomposition method called TensorFact which
splits the convolution kernels of a layer of a Convolutional Neural Network
(CNN) into low-rank factor matrices, with fewer parameters than the original
CNN. We first pretrain these factor matrices on the RGB modality, for which
plenty of training data are assumed to exist and then augment only a few
trainable parameters for training on the IR modality to avoid over-fitting,
while encouraging them to capture complementary cues from those trained only on
the RGB modality. We validate our approach empirically by first assessing how
well our TensorFact decomposed network performs at the task of detecting
objects in RGB images vis-a-vis the original network and then look at how well
it adapts to IR images of the FLIR ADAS v1 dataset. For the latter, we train
models under scenarios that pose challenges stemming from data paucity. From
the experiments, we observe that: (i) TensorFact shows performance gains on RGB
images; (ii) further, this pre-trained model, when fine-tuned, outperforms a
standard state-of-the-art object detector on the FLIR ADAS v1 dataset by about
4% in terms of mAP 50 score.
- Abstract(参考訳): 赤外線画像における良好な認識性能を得るための主要なボトルネックは、そのようなデータを取得するコストのために十分なラベル付きトレーニングデータがないことである。
RGBモダリティのオブジェクト検出方法は非常に堅牢であること(少なくとも人、車、その他の一般的なクラスでは)は、RGBモダリティからIRモダリティまで、モデル性能を保ちながら、RGBモダリティからオブジェクト検出をスケールするために、この研究で存在する巨大なトレーニングセットを活用することを目的としている。
提案手法のコアとなるテンソルファクト(TensorFact)は,畳み込みニューラルネットワーク(CNN)のレイヤの畳み込みカーネルを,元のCNNよりも少ないパラメータで低ランク係数行列に分割するテンソル分解法である。
我々はまず,これらの因子行列をrgbモダリティ上で事前学習し,多くのトレーニングデータが存在すると仮定した上で,オーバーフィッティングを避けるためにirモダリティのトレーニングを行うためのトレーニング可能なパラメータをほんの数個加えながら,rgbモダリティ上でのみトレーニングされた者からの補足的なヒントを捉えるように促した。
我々は、まず、我々のTensorFact分解ネットワークがRGB画像中のオブジェクトを検出し、元のネットワークをvis-a-visし、FLIR ADAS v1データセットのIR画像にどの程度順応するかを評価することで、我々のアプローチを実証的に検証する。
後者については、データポーシティに起因する課題を提起するシナリオでモデルをトレーニングします。
実験の結果、以下のことが判明した。
(i)TensorFactはRGB画像のパフォーマンス向上を示す。
さらに、この事前学習モデルは、微調整された場合、FLIR ADAS v1データセット上の標準的な最先端オブジェクト検出器をmAP 50スコアで約4%上回っている。
関連論文リスト
- Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge [11.905387325966311]
本稿では、RGB画像から抽出した新しいデータに、RGB画像に基づいて訓練された大規模な物体検出モデルを適用することに焦点を当てる。
モーダリティ変換器 (ModTr) を, 大規模モデルを新しいモーダリティに微調整する一般的な手法の代替として提案する。
論文 参考訳(メタデータ) (2024-04-01T21:28:50Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Meta-Learning for Color-to-Infrared Cross-Modal Style Transfer [4.9260675787714]
最近の赤外線画像の物体検出モデルはディープニューラルネットワーク(DNN)に基づいている
我々は,大規模で多様なカラー画像データセットを活用するために,クロスモーダル・スタイル・トランスファー(CMST)を提案する。
CMSTはDNNベースの検出器に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2022-12-24T22:38:16Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。