論文の概要: Meta-Learning for Color-to-Infrared Cross-Modal Style Transfer
- arxiv url: http://arxiv.org/abs/2212.12824v1
- Date: Sat, 24 Dec 2022 22:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:33:03.752959
- Title: Meta-Learning for Color-to-Infrared Cross-Modal Style Transfer
- Title(参考訳): カラー-赤外線クロスモーダル変換のためのメタラーニング
- Authors: Evelyn A. Stump, Francesco Luzi, Leslie M. Collins, Jordan M. Malof
- Abstract要約: 赤外線(IR)画像に対する最近の物体検出モデルは、ディープニューラルネットワーク(DNN)に基づいており、大量のラベル付きトレーニング画像を必要とする。
この問題に対処するために,大規模で多様なカラー画像データセットを活用するためのクロスモーダル・スタイル・トランスファー(CMST)について検討する。
- 参考スコア(独自算出の注目度): 5.215058915075776
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent object detection models for infrared (IR) imagery are based upon deep
neural networks (DNNs) and require large amounts of labeled training imagery.
However, publicly-available datasets that can be used for such training are
limited in their size and diversity. To address this problem, we explore
cross-modal style transfer (CMST) to leverage large and diverse color imagery
datasets so that they can be used to train DNN-based IR image based object
detectors. We evaluate six contemporary stylization methods on four
publicly-available IR datasets - the first comparison of its kind - and find
that CMST is highly effective for DNN-based detectors. Surprisingly, we find
that existing data-driven methods are outperformed by a simple grayscale
stylization (an average of the color channels). Our analysis reveals that
existing data-driven methods are either too simplistic or introduce significant
artifacts into the imagery. To overcome these limitations, we propose
meta-learning style transfer (MLST), which learns a stylization by composing
and tuning well-behaved analytic functions. We find that MLST leads to more
complex stylizations without introducing significant image artifacts and
achieves the best overall detector performance on our benchmark datasets.
- Abstract(参考訳): 赤外線(IR)画像に対する最近の物体検出モデルは、ディープニューラルネットワーク(DNN)に基づいており、大量のラベル付きトレーニング画像を必要とする。
しかし、そのようなトレーニングに使用できる公開データセットのサイズと多様性は限られている。
この問題に対処するため,我々は多彩なカラー画像データセットを活用し,DNNベースのIR画像ベースオブジェクト検出器のトレーニングに使用できるクロスモーダル・スタイル・トランスファー(CMST)を提案する。
我々は4つのirデータセットにおける6つの現代スタイライゼーション手法(この種の最初の比較)を評価し、cmstがdnnベースの検出器に非常に有効であることを見出した。
驚くべきことに、既存のデータ駆動型メソッドは、単純なグレースケールのスタイライゼーション(カラーチャネルの平均値)で勝っている。
我々の分析によると、既存のデータ駆動手法は単純すぎるか、画像に重要なアーティファクトを導入するかのどちらかである。
これらの制約を克服するため,我々は,解析関数の構成とチューニングによりスタイライゼーションを学ぶメタラーニングスタイルトランスファー(mlst)を提案する。
MLSTは、重要な画像アーティファクトを導入せずにより複雑なスタイリゼーションをもたらし、ベンチマークデータセット上で最高の全体的な検出性能を達成する。
関連論文リスト
- Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection [57.666055329221194]
本稿では,Segment Anything Model (SAM) などのジェネリックセグメンテーションモデルの赤外線小物体検出タスクへの適応について検討する。
提案モデルでは,既存の手法と比較して,精度とスループットの両方で性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-07T05:31:24Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation [21.950751953721817]
セグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。
我々は、Fractal Cross FusionモジュールがRGBと深度データを融合するネットワークへの入力として、リッチな色特徴を持つRGB画像を使用する。
実データ収集のコストを削減するため,敵対的戦略に基づくデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T03:21:55Z) - Multi-Spectral Image Classification with Ultra-Lean Complex-Valued
Models [28.798100220715686]
マルチスペクトル画像は、材料によって示される異なるスペクトルシグネチャによってリモートセンシングに有用である。
複素値コドメイン対称モデルを用いて実値MSI画像の分類を行う。
我々の研究は、実数値MSIデータにおける複素数値深層学習の価値を初めて示すものである。
論文 参考訳(メタデータ) (2022-11-21T19:01:53Z) - Auto-Transfer: Learning to Route Transferrable Representations [77.30427535329571]
本稿では,適切なターゲット表現にソース表現をルートする方法を自動学習する,新しい対向型マルチアームバンディット手法を提案する。
最先端の知識伝達手法と比較すると,5%以上の精度向上が期待できる。
論文 参考訳(メタデータ) (2022-02-02T13:09:27Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - Dynamic Relevance Learning for Few-Shot Object Detection [6.550840743803705]
動的グラフ畳み込みネットワーク(GCN)を構築するために,すべてのサポート画像とクエリ画像上の関心領域(RoI)の関係を利用した動的関連学習モデルを提案する。
提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。
論文 参考訳(メタデータ) (2021-08-04T18:29:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。