Fugu-MT 論文翻訳(概要): Meta-Learning for Color-to-Infrared Cross-Modal Style Transfer

論文の概要: Meta-Learning for Color-to-Infrared Cross-Modal Style Transfer

arxiv url: http://arxiv.org/abs/2212.12824v2
Date: Sat, 23 Nov 2024 14:51:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.558748
Title: Meta-Learning for Color-to-Infrared Cross-Modal Style Transfer
Title（参考訳）: カラー-赤外クロスモーダル型トランスファーのためのメタラーニング
Authors: Evelyn A. Stump, Francesco Luzi, Leslie M. Collins, Jordan M. Malof,
Abstract要約: 最近の赤外線画像の物体検出モデルはディープニューラルネットワーク(DNN)に基づいている我々は,大規模で多様なカラー画像データセットを活用するために,クロスモーダル・スタイル・トランスファー(CMST)を提案する。 CMSTはDNNベースの検出器に極めて有効であることがわかった。
参考スコア（独自算出の注目度）: 4.9260675787714
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent object detection models for infrared (IR) imagery are based upon deep neural networks (DNNs) and require large amounts of labeled training imagery. However, publicly available datasets that can be used for such training are limited in their size and diversity. To address this problem, we explore cross-modal style transfer (CMST) to leverage large and diverse color imagery datasets so that they can be used to train DNN-based IR image-based object detectors. We evaluate six contemporary stylization methods on four publicly-available IR datasets - the first comparison of its kind - and find that CMST is highly effective for DNN-based detectors. Surprisingly, we find that existing data-driven methods are outperformed by a simple grayscale stylization (an average of the color channels). Our analysis reveals that existing data-driven methods are either too simplistic or introduce significant artifacts into the imagery. To overcome these limitations, we propose meta-learning style transfer (MLST), which learns a stylization by composing and tuning well-behaved analytic functions. We find that MLST leads to more complex stylizations without introducing significant image artifacts and achieves the best overall detector performance on our benchmark datasets.
Abstract（参考訳）: 赤外線(IR)画像に対する最近の物体検出モデルは、ディープニューラルネットワーク(DNN)に基づいており、大量のラベル付きトレーニング画像を必要とする。しかし、そのようなトレーニングに使用できる公開データセットのサイズと多様性は限られている。この問題に対処するために、我々は、多彩なカラー画像データセットを活用して、DNNベースのIR画像ベースオブジェクト検出器をトレーニングするために、クロスモーダル・スタイル・トランスファー(CMST)を探索する。公開可能な4つのIRデータセット(この種の最初の比較)上で、同時代の6つのスタイル化手法を評価し、CMSTがDNNベースの検出器に非常に有効であることを示す。驚くべきことに、既存のデータ駆動手法は、単純なグレースケールスタイリング(カラーチャネルの平均)によって性能が向上している。我々の分析によると、既存のデータ駆動手法は単純すぎるか、画像に重要なアーティファクトを導入するかのどちらかである。これらの制約を克服するため,メタラーニングスタイル転送(MLST)を提案する。 MLSTは、重要な画像アーティファクトを導入せずにより複雑なスタイリングをもたらし、ベンチマークデータセット上で最高の全体的な検出性能を達成する。

関連論文リスト

IrisNet: Infrared Image Status Awareness Meta Decoder for Infrared Small Targets Detection [92.56025546608699]
IrisNetは、入力赤外線画像ステータスに検出戦略を適用する、新しいメタ学習フレームワークである。提案手法は,赤外線画像特徴量とデコーダパラメータ全体の動的マッピングを確立する。 NUDT-SIRST、NUAA-SIRST、IRSTD-1Kデータセットの実験は、我々のIrisNetの優位性を示している。
論文参考訳（メタデータ） (2025-11-25T13:53:54Z)
Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文参考訳（メタデータ） (2025-03-13T22:38:18Z)
Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection [57.666055329221194]
本稿では,Segment Anything Model (SAM) などのジェネリックセグメンテーションモデルの赤外線小物体検出タスクへの適応について検討する。提案モデルでは,既存の手法と比較して,精度とスループットの両方で性能が大幅に向上した。
論文参考訳（メタデータ） (2024-09-07T05:31:24Z)
SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。 Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文参考訳（メタデータ） (2024-03-08T16:14:54Z)
Tensor Factorization for Leveraging Cross-Modal Knowledge in Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文参考訳（メタデータ） (2023-09-28T16:55:52Z)
Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation [21.950751953721817]
セグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。我々は、Fractal Cross FusionモジュールがRGBと深度データを融合するネットワークへの入力として、リッチな色特徴を持つRGB画像を使用する。実データ収集のコストを削減するため,敵対的戦略に基づくデータ拡張手法を提案する。
論文参考訳（メタデータ） (2023-05-05T03:21:55Z)
Multi-Spectral Image Classification with Ultra-Lean Complex-Valued Models [28.798100220715686]
マルチスペクトル画像は、材料によって示される異なるスペクトルシグネチャによってリモートセンシングに有用である。複素値コドメイン対称モデルを用いて実値MSI画像の分類を行う。我々の研究は、実数値MSIデータにおける複素数値深層学習の価値を初めて示すものである。
論文参考訳（メタデータ） (2022-11-21T19:01:53Z)
Auto-Transfer: Learning to Route Transferrable Representations [77.30427535329571]
本稿では,適切なターゲット表現にソース表現をルートする方法を自動学習する,新しい対向型マルチアームバンディット手法を提案する。最先端の知識伝達手法と比較すると,5%以上の精度向上が期待できる。
論文参考訳（メタデータ） (2022-02-02T13:09:27Z)
Multi-Scale Iterative Refinement Network for RGB-D Salient Object Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文参考訳（メタデータ） (2022-01-24T10:33:00Z)
Infrared Small-Dim Target Detection with Transformer under Complex Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文参考訳（メタデータ） (2021-09-29T12:23:41Z)
Dynamic Relevance Learning for Few-Shot Object Detection [6.550840743803705]
動的グラフ畳み込みネットワーク(GCN)を構築するために,すべてのサポート画像とクエリ画像上の関心領域(RoI)の関係を利用した動的関連学習モデルを提案する。提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。
論文参考訳（メタデータ） (2021-08-04T18:29:42Z)
Self-Supervised Representation Learning for RGB-D Salient Object Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。 RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文参考訳（メタデータ） (2021-01-29T09:16:06Z)
Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文参考訳（メタデータ） (2020-08-19T13:13:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。