論文の概要: StawGAN: Structural-Aware Generative Adversarial Networks for Infrared
Image Translation
- arxiv url: http://arxiv.org/abs/2305.10882v1
- Date: Thu, 18 May 2023 11:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:34:12.579520
- Title: StawGAN: Structural-Aware Generative Adversarial Networks for Infrared
Image Translation
- Title(参考訳): StawGAN:赤外画像翻訳のための構造認識型生成対向ネットワーク
- Authors: Luigi Sigillo, Eleonora Grassucci, Danilo Comminiello
- Abstract要約: 本稿では,単に色を着色することなく,ターゲット生成の品質向上に焦点をあてた新しいモデルを提案する。
我々は、RGB-IRペア画像を含むDroneVeichleデータセットの空中画像上で、我々のモデルを検証した。
- 参考スコア(独自算出の注目度): 7.098759778181621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of translating night-time thermal infrared
images, which are the most adopted image modalities to analyze night-time
scenes, to daytime color images (NTIT2DC), which provide better perceptions of
objects. We introduce a novel model that focuses on enhancing the quality of
the target generation without merely colorizing it. The proposed structural
aware (StawGAN) enables the translation of better-shaped and high-definition
objects in the target domain. We test our model on aerial images of the
DroneVeichle dataset containing RGB-IR paired images. The proposed approach
produces a more accurate translation with respect to other state-of-the-art
image translation models. The source code is available at
https://github.com/LuigiSigillo/StawGAN
- Abstract(参考訳): 本論文は,夜間の熱赤外画像(夜間のシーンを解析するための最もよく採用された画像モダリティ)を,物体の知覚を良くする日時カラー画像(NTIT2DC)に翻訳する問題に対処する。
本稿では,カラー化を伴わずに,ターゲット生成の品質向上に焦点をあてた新しいモデルを提案する。
提案した構造認識(StawGAN)は、対象領域におけるより良い形状と高解像度オブジェクトの翻訳を可能にする。
rgb-irペア画像を含むdroneveichleデータセットの航空画像でモデルをテストする。
提案手法は他の最先端画像翻訳モデルに対してより正確な翻訳を生成する。
ソースコードはhttps://github.com/LuigiSigillo/StawGANで入手できる。
関連論文リスト
- Supervised Image Translation from Visible to Infrared Domain for Object Detection [1.7851018240619703]
本研究の目的は,2つのモダリティ間の領域ギャップを埋めることで,可視から赤外線への変換を学習することである。
我々は,ジェネレーティブ・アドバイサル・ネットワークとオブジェクト検出モデルを用いた2段階のトレーニング戦略を採用する。
このような画像は、Yolov5、Mask、Faster RCNNなどの標準オブジェクト検出フレームワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-08-03T18:51:04Z) - Visible to Thermal image Translation for improving visual task in low
light conditions [0.0]
Parrot Anafi Thermalのドローンを使って、2つの場所から画像を収集した。
我々は2ストリームネットワークを作成し、前処理、拡張、画像データを作成し、ジェネレータと識別器モデルをゼロから訓練した。
その結果, RGB トレーニングデータを GAN を用いて熱データに変換することが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-10-31T05:18:53Z) - Nighttime Thermal Infrared Image Colorization with Feedback-based Object
Appearance Learning [27.58748298687474]
フィードバックに基づくオブジェクト外観学習(FoalGAN)を取り入れた生成的対向ネットワークを提案する。
FoalGANは、小さなオブジェクトの外観学習に有効であるが、意味保存とエッジ整合性の点で、他の画像翻訳方法よりも優れている。
論文 参考訳(メタデータ) (2023-10-24T09:59:55Z) - Guided Image-to-Image Translation by Discriminator-Generator
Communication [71.86347329356244]
Image-to-image (I2I) 翻訳の目標は、ソースドメインからターゲットドメインに画像を転送することである。
本研究の主な分野は,GAN(Generative Adversarial Network)に基づくI2I翻訳の定式化である。
論文 参考訳(メタデータ) (2023-03-07T02:29:36Z) - Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D Panoramic Color Images from LiDAR Point Clouds [0.7234862895932991]
本研究は,LiDARとカメラセンサのマルチモーダル構成によるクロスドメイン画像・画像変換のための条件生成モデルであるTITAN-Nextを提案する。
我々は、これがこの種の最初のフレームワークであり、フェールセーフなメカニズムを提供し、ターゲット画像領域で利用可能なデータを増強するなど、自動運転車に実践的な応用があると主張している。
論文 参考訳(メタデータ) (2023-02-15T13:48:10Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Thermal Infrared Image Colorization for Nighttime Driving Scenes with
Top-Down Guided Attention [14.527765677864913]
toP-down attEntion and gRadient aLignment based GAN(PearlGAN)を提案する。
トップダウンガイドアテンションモジュールと精巧なアテンションロスは、翻訳中の意味的エンコーディングの曖昧さを減らすために最初に設計されている。
さらに、FLIRおよびKAISTデータセットのサブセット上で画素レベルのアノテーションを行い、複数の翻訳手法のセマンティックな保存性能を評価する。
論文 参考訳(メタデータ) (2021-04-29T14:35:25Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。