論文の概要: Supervised Image Translation from Visible to Infrared Domain for Object Detection
- arxiv url: http://arxiv.org/abs/2408.01843v1
- Date: Sat, 3 Aug 2024 18:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:11:11.440523
- Title: Supervised Image Translation from Visible to Infrared Domain for Object Detection
- Title(参考訳): 物体検出のための可視から赤外線領域へのスーパービジョン画像変換
- Authors: Prahlad Anand, Qiranul Saadiyean, Aniruddh Sikdar, Nalini N, Suresh Sundaram,
- Abstract要約: 本研究の目的は,2つのモダリティ間の領域ギャップを埋めることで,可視から赤外線への変換を学習することである。
我々は,ジェネレーティブ・アドバイサル・ネットワークとオブジェクト検出モデルを用いた2段階のトレーニング戦略を採用する。
このような画像は、Yolov5、Mask、Faster RCNNなどの標準オブジェクト検出フレームワークのトレーニングに使用される。
- 参考スコア(独自算出の注目度): 1.7851018240619703
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study aims to learn a translation from visible to infrared imagery, bridging the domain gap between the two modalities so as to improve accuracy on downstream tasks including object detection. Previous approaches attempt to perform bi-domain feature fusion through iterative optimization or end-to-end deep convolutional networks. However, we pose the problem as similar to that of image translation, adopting a two-stage training strategy with a Generative Adversarial Network and an object detection model. The translation model learns a conversion that preserves the structural detail of visible images while preserving the texture and other characteristics of infrared images. Images so generated are used to train standard object detection frameworks including Yolov5, Mask and Faster RCNN. We also investigate the usefulness of integrating a super-resolution step into our pipeline to further improve model accuracy, and achieve an improvement of as high as 5.3% mAP.
- Abstract(参考訳): 本研究の目的は、物体検出を含む下流タスクの精度を向上させるために、2つのモード間の領域ギャップを埋め、可視から赤外線への変換を学習することである。
従来のアプローチでは、反復最適化やエンドツーエンドの深層畳み込みネットワークを通じて、ドメイン間の機能融合を試みていた。
しかし,この問題は画像翻訳と類似しており,ジェネレーティブ・アドバイサル・ネットワークとオブジェクト検出モデルを用いた2段階の学習戦略を採用している。
翻訳モデルは、テクスチャやその他の赤外線画像の特徴を保存しながら、可視画像の構造的詳細を保存する変換を学習する。
このような画像は、Yolov5、Mask、Faster RCNNなどの標準オブジェクト検出フレームワークのトレーニングに使用される。
また,モデル精度を向上し,最大5.3%のmAP向上を実現するため,パイプラインに超解像ステップを組み込むことの有用性についても検討した。
関連論文リスト
- DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。
我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文 参考訳(メタデータ) (2024-06-03T16:13:33Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - LadleNet: A Two-Stage UNet for Infrared Image to Visible Image Translation Guided by Semantic Segmentation [5.125530969984795]
本稿では,LadleNetと呼ばれるU-netに基づく画像翻訳アルゴリズムを提案する。
LadleNet+は、LadleNetのHandleモジュールをトレーニング済みのDeepLabv3+ネットワークに置き換える。
従来の方法と比較して、LadleNetとLadleNet+は平均12.4%、SSIMは15.2%、MS-SSIMは37.9%、MS-SSIMは50.6%だった。
論文 参考訳(メタデータ) (2023-08-12T16:14:44Z) - Remote Sensing Image Change Detection with Graph Interaction [1.8579693774597708]
本稿では,BGINet-CDを用いたリモートセンシングによる画像変化検出のためのバイテンポラル画像グラフインタラクションネットワークを提案する。
本モデルは,GZ CDデータセット上の他の最先端手法(SOTA)と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-05T03:32:49Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - Saliency Enhancement using Gradient Domain Edges Merging [65.90255950853674]
本研究では,エッジとサリエンシマップをマージして,サリエンシマップの性能を向上させる手法を開発した。
これにより、DUT-OMRONデータセットの少なくとも3.4倍の平均的な改善により、エッジ(SEE)を使用したサリエンシ向上が提案された。
SEEアルゴリズムは前処理のためのSEE-Preと後処理のためのSEE-Postの2つの部分に分けられる。
論文 参考訳(メタデータ) (2020-02-11T14:04:56Z) - Supervised and Unsupervised Learning of Parameterized Color Enhancement [112.88623543850224]
我々は、教師なし学習と教師なし学習の両方を用いて、画像翻訳タスクとしての色強調の問題に取り組む。
我々は,MIT-Adobe FiveKベンチマークにおいて,教師付き(ペアデータ)と教師なし(ペアデータ)の2つの画像強調手法と比較して,最先端の結果が得られた。
20世紀初頭の写真や暗黒ビデオフレームに応用することで,本手法の一般化能力を示す。
論文 参考訳(メタデータ) (2019-12-30T13:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。