論文の概要: Edge-guided Multi-domain RGB-to-TIR image Translation for Training
Vision Tasks with Challenging Labels
- arxiv url: http://arxiv.org/abs/2301.12689v1
- Date: Mon, 30 Jan 2023 06:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:37:16.756262
- Title: Edge-guided Multi-domain RGB-to-TIR image Translation for Training
Vision Tasks with Challenging Labels
- Title(参考訳): エッジガイド付きマルチドメインrgb-to-tir画像変換によるラベル課題の学習
- Authors: Dong-Guw Lee, Myung-Hwan Jeon, Younggun Cho and Ayoung Kim
- Abstract要約: 注釈付き熱赤外(TIR)画像データセットの不足は、TIR画像ベースのディープラーニングネットワークを妨害し、RGBと同等の性能を持つ。
本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。
我々は、終点誤差を平均56.5%改善した深部TIR画像に基づく光フロー推定と物体検出の教師あり学習を可能にし、最高の物体検出mAPは23.9%とした。
- 参考スコア(独自算出の注目度): 12.701191873813583
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The insufficient number of annotated thermal infrared (TIR) image datasets
not only hinders TIR image-based deep learning networks to have comparable
performances to that of RGB but it also limits the supervised learning of TIR
image-based tasks with challenging labels. As a remedy, we propose a modified
multidomain RGB to TIR image translation model focused on edge preservation to
employ annotated RGB images with challenging labels. Our proposed method not
only preserves key details in the original image but also leverages the optimal
TIR style code to portray accurate TIR characteristics in the translated image,
when applied on both synthetic and real world RGB images. Using our translation
model, we have enabled the supervised learning of deep TIR image-based optical
flow estimation and object detection that ameliorated in deep TIR optical flow
estimation by reduction in end point error by 56.5\% on average and the best
object detection mAP of 23.9\% respectively. Our code and supplementary
materials are available at https://github.com/rpmsnu/sRGB-TIR.
- Abstract(参考訳): 注釈付き熱赤外(TIR)画像データセットの不足は、TIRイメージベースのディープラーニングネットワークをRGBに匹敵するパフォーマンスに障害を与えるだけでなく、TIRイメージベースのタスクの教師付き学習を、挑戦的なラベルで制限する。
そこで本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。
提案手法は,元の画像のキーの詳細を保存するだけでなく,合成RGB画像と実世界のRGB画像の両方に適用した場合に,翻訳画像の正確なTIR特性を表現するために最適なTIRスタイルコードを利用する。
翻訳モデルを用いて, 端点誤差を平均56.5 %削減し, 最良物体検出マップを23.9 %削減することで, 奥行き画像に基づく光学フロー推定と被写体検出の教師付き学習を可能にした。
私たちのコードと補足資料はhttps://github.com/rpmsnu/srgb-tirで入手できます。
関連論文リスト
- Pix2Next: Leveraging Vision Foundation Models for RGB to NIR Image Translation [0.536022165180739]
RGB入力から高画質近赤外(NIR)画像を生成する新しい画像画像変換フレームワークPix2Nextを提案する。
マルチスケールのPatchGAN識別器は、様々な詳細レベルでリアルな画像生成を保証し、慎重に設計された損失関数は、グローバルなコンテキスト理解と局所的な特徴保存を結びつける。
提案手法により、追加のデータ取得やアノテーションの取り組みなしに、NIRデータセットのスケールアップが可能となり、NIRベースのコンピュータビジョンアプリケーションの進歩が加速する可能性がある。
論文 参考訳(メタデータ) (2024-09-25T07:51:47Z) - HalluciDet: Hallucinating RGB Modality for Person Detection Through Privileged Information [12.376615603048279]
HalluciDetは、オブジェクト検出のためのIR-RGB画像変換モデルである。
我々は、画像翻訳とIRの微調整のための最先端手法に対する我々のアプローチを実証的に比較した。
論文 参考訳(メタデータ) (2023-10-07T03:00:33Z) - Enhancing Low-Light Images Using Infrared-Encoded Images [81.8710581927427]
従来の芸術は、主にピクセルワイド・ロスを用いて可視光スペクトルで捉えた低照度画像に焦点を当てていた。
我々は,赤外線カットオフフィルタを除去することにより,低照度環境下で撮影された画像の可視性を高める新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T08:29:19Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - Thermal Infrared Image Inpainting via Edge-Aware Guidance [8.630992878659084]
本稿では,熱赤外画像の塗布に関する新しい課題を提案する。
我々は、壊れたTIR画像の細いエッジを完成させるためにエッジジェネレータを採用する。
完了したエッジは、モデルのエッジ認識を高めるために正規化重みとバイアスに投影される。
実験により,本手法はFLIRサーマルデータセットに対する最先端画像塗装手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-28T09:06:54Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - RGB-Multispectral Matching: Dataset, Learning Methodology, Evaluation [49.28588927121722]
ステレオマッチング対応を解くことで,解像度の異なる同期色(RGB)とマルチスペクトル画像(MS)の登録の問題に対処する。
室内環境における13の異なるシーンをフレーミングする新しいRGB-MSデータセットを導入し,34枚の画像対に半高解像度の高解像度の地上トラスラベルを付加したアノテートを行った。
そこで本研究では,RGBカメラを活用した自己指導型ディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:59:59Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision [76.41657124981549]
本稿では,画像アライメントとRAW-to-sRGBマッピングのための共同学習モデルを提案する。
実験の結果,本手法はZRRおよびSR-RAWデータセットの最先端に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2021-08-18T12:41:36Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - Thermal Infrared Image Colorization for Nighttime Driving Scenes with
Top-Down Guided Attention [14.527765677864913]
toP-down attEntion and gRadient aLignment based GAN(PearlGAN)を提案する。
トップダウンガイドアテンションモジュールと精巧なアテンションロスは、翻訳中の意味的エンコーディングの曖昧さを減らすために最初に設計されている。
さらに、FLIRおよびKAISTデータセットのサブセット上で画素レベルのアノテーションを行い、複数の翻訳手法のセマンティックな保存性能を評価する。
論文 参考訳(メタデータ) (2021-04-29T14:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。