論文の概要: PCSGAN: Perceptual Cyclic-Synthesized Generative Adversarial Networks
for Thermal and NIR to Visible Image Transformation
- arxiv url: http://arxiv.org/abs/2002.07082v2
- Date: Thu, 6 Aug 2020 11:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 13:13:54.118849
- Title: PCSGAN: Perceptual Cyclic-Synthesized Generative Adversarial Networks
for Thermal and NIR to Visible Image Transformation
- Title(参考訳): PCSGAN: 可視画像変換のためのサーマルおよびNIRのための知覚周期合成逆数ネットワーク
- Authors: Kancharagunta Kishan Babu and Shiv Ram Dubey
- Abstract要約: これらの問題に対処するため,PCSGAN (Perceptual Cyclic-Synthesized Generative Adrial Network) が導入された。
PCSGANは、画素単位での逆損失(すなわち特徴ベース)と逆損失の組み合わせを使用する。
提案したPCSGANは, Pix2pix, DualGAN, CycleGAN, PS2GAN, PANなどの最先端画像モデルよりも, SSIM, MSE, PSNR, LPIPS評価の点で優れている。
- 参考スコア(独自算出の注目度): 17.205434613674104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real world scenarios, it is difficult to capture the images in the
visible light spectrum (VIS) due to bad lighting conditions. However, the
images can be captured in such scenarios using Near-Infrared (NIR) and Thermal
(THM) cameras. The NIR and THM images contain the limited details. Thus, there
is a need to transform the images from THM/NIR to VIS for better understanding.
However, it is non-trivial task due to the large domain discrepancies and lack
of abundant datasets. Nowadays, Generative Adversarial Network (GAN) is able to
transform the images from one domain to another domain. Most of the available
GAN based methods use the combination of the adversarial and the pixel-wise
losses (like $L_1$ or $L_2$) as the objective function for training. The
quality of transformed images in case of THM/NIR to VIS transformation is still
not up to the mark using such objective function. Thus, better objective
functions are needed to improve the quality, fine details and realism of the
transformed images. A new model for THM/NIR to VIS image transformation called
Perceptual Cyclic-Synthesized Generative Adversarial Network (PCSGAN) is
introduced to address these issues. The PCSGAN uses the combination of the
perceptual (i.e., feature based) losses along with the pixel-wise and the
adversarial losses. Both the quantitative and qualitative measures are used to
judge the performance of the PCSGAN model over the WHU-IIP face and the RGB-NIR
scene datasets. The proposed PCSGAN outperforms the state-of-the-art image
transformation models, including Pix2pix, DualGAN, CycleGAN, PS2GAN, and PAN in
terms of the SSIM, MSE, PSNR and LPIPS evaluation measures. The code is
available at https://github.com/KishanKancharagunta/PCSGAN.
- Abstract(参考訳): 多くの現実世界のシナリオでは、照明条件が悪いため可視光スペクトル(vis)の画像を撮影することは困難である。
しかし、画像は近赤外(NIR)カメラと熱(THM)カメラを使って撮影することができる。
NIRとTHMの画像には、制限された詳細が含まれている。
したがって、より理解を深めるために、THM/NIRからVISに変換する必要がある。
しかし、大きなドメインの相違と豊富なデータセットの欠如のため、これは非自明な作業です。
現在、GAN(Generative Adversarial Network)は、画像をあるドメインから別のドメインに変換することができる。
利用可能なGANベースのほとんどのメソッドは、トレーニングの目的関数として、逆数とピクセル単位の損失($L_1$や$L_2$など)の組み合わせを使用している。
THM/NIRからVISへの変換における変換画像の品質は、そのような目的関数を用いても、まだ限界に達していない。
したがって、変換画像の品質、細部、リアリズムを改善するためには、より良い客観的機能が必要である。
これらの問題に対処するために, THM/NIR から VIS への新たな変換モデルである Perceptual Cyclic-Synthesized Generative Adversarial Network (PCSGAN) を導入した。
PCSGANは、知覚的(つまり特徴に基づく)損失と、ピクセルワイドと敵対的損失の組み合わせを使用する。
WHU-IIP面とRGB-NIRシーンデータセット上でのPCSGANモデルの性能を定量的および定性的に評価するために、どちらも用いられる。
提案したPCSGANは, Pix2pix, DualGAN, CycleGAN, PS2GAN, PANなどの最先端画像変換モデルよりも, SSIM, MSE, PSNR, LPIPS評価の点で優れている。
コードはhttps://github.com/Kishan Kancharagunta/PCSGANで入手できる。
関連論文リスト
- LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution [1.747623282473278]
複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。
熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
論文 参考訳(メタデータ) (2024-11-12T12:23:19Z) - CSIM: A Copula-based similarity index sensitive to local changes for Image quality assessment [2.3874115898130865]
画像類似度メトリクスは、画像処理、コンピュータビジョン、機械学習で使用されるため、コンピュータビジョンアプリケーションにおいて重要な役割を果たす。
PSNR、MSE、SSIM、ISSM、FSIMといった既存のメトリクスは、画像の小さな変更に対する速度、複雑さ、感度のいずれにおいても制限に直面していることが多い。
本稿では,画像の微妙な変化に敏感でありながらリアルタイムに組み合わせた新しい画像類似度指標CSIMについて検討する。
論文 参考訳(メタデータ) (2024-10-02T10:46:05Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z) - Adversarial Generation of Continuous Images [31.92891885615843]
本稿では,INRに基づく画像デコーダ構築のための2つの新しいアーキテクチャ手法を提案する。
私たちは、最先端の連続画像GANを構築するためにそれらを使用します。
提案したINR-GANアーキテクチャは連続画像生成装置の性能を数倍改善する。
論文 参考訳(メタデータ) (2020-11-24T11:06:40Z) - Conditional Sequential Modulation for Efficient Global Image Retouching [45.99310982782054]
フォトリタッチは、露出過度、コントラストの低さ、不調和な彩度といった写真的欠陥に悩まされる画像の美的品質を高めることを目的としている。
本稿では,一般的に使用されているリタッチ操作について検討し,これらの画素非依存演算が多層パーセプトロン(MLP)によって近似あるいは定式化可能であることを数学的に確認する。
我々は,効率的なグローバル画像リタッチのための非常に軽量なフレームワークであるSequential Retouching Network (CSRNet)を提案する。
論文 参考訳(メタデータ) (2020-09-22T08:32:04Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。