論文の概要: I2V-GAN: Unpaired Infrared-to-Visible Video Translation
- arxiv url: http://arxiv.org/abs/2108.00913v2
- Date: Wed, 4 Aug 2021 05:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 10:25:18.772144
- Title: I2V-GAN: Unpaired Infrared-to-Visible Video Translation
- Title(参考訳): I2V-GAN:赤外線可視光ビデオ翻訳
- Authors: Shuang Li, Bingfeng Han, Zhenjie Yu, Chi Harold Liu, Kai Chen, Shuigen
Wang
- Abstract要約: 本稿では,赤外線映像の可視光映像を生成するために,赤外線可視(I2V)ビデオ翻訳方式I2V-GANを提案する。
本モデルでは,1)実物に類似した合成フレームを生成するための対角的制約,2)効果的なコンテンツ変換のための知覚的損失に対する循環的整合性,3)ドメイン内およびドメイン内における相似性制約,の3つの制約を重んじる。
実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 14.156053075519207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human vision is often adversely affected by complex environmental factors,
especially in night vision scenarios. Thus, infrared cameras are often
leveraged to help enhance the visual effects via detecting infrared radiation
in the surrounding environment, but the infrared videos are undesirable due to
the lack of detailed semantic information. In such a case, an effective
video-to-video translation method from the infrared domain to the visible light
counterpart is strongly needed by overcoming the intrinsic huge gap between
infrared and visible fields. To address this challenging problem, we propose an
infrared-to-visible (I2V) video translation method I2V-GAN to generate
fine-grained and spatial-temporal consistent visible light videos by given
unpaired infrared videos. Technically, our model capitalizes on three types of
constraints: 1)adversarial constraint to generate synthetic frames that are
similar to the real ones, 2)cyclic consistency with the introduced perceptual
loss for effective content conversion as well as style preservation, and
3)similarity constraints across and within domains to enhance the content and
motion consistency in both spatial and temporal spaces at a fine-grained level.
Furthermore, the current public available infrared and visible light datasets
are mainly used for object detection or tracking, and some are composed of
discontinuous images which are not suitable for video tasks. Thus, we provide a
new dataset for I2V video translation, which is named IRVI. Specifically, it
has 12 consecutive video clips of vehicle and monitoring scenes, and both
infrared and visible light videos could be apart into 24352 frames.
Comprehensive experiments validate that I2V-GAN is superior to the compared
SOTA methods in the translation of I2V videos with higher fluency and finer
semantic details. The code and IRVI dataset are available at
https://github.com/BIT-DA/I2V-GAN.
- Abstract(参考訳): 人間の視覚はしばしば複雑な環境要因、特に夜間視覚のシナリオに影響される。
したがって、赤外線カメラは周囲の環境の赤外線を検知することで視覚効果を高めるためにしばしば利用されるが、詳細な意味情報の欠如により赤外線映像は望ましくない。
この場合、赤外線領域から可視光領域への効果的な映像から映像への変換は、赤外線領域と可視領域の間の内在的な大きなギャップを克服することによって強く必要となる。
この課題に対処するために、不対向赤外線ビデオによって微細で時空間的に一貫した可視光ビデオを生成する赤外線可視(I2V)ビデオ変換法I2V-GANを提案する。
技術的には,1) 実物に近い合成フレームを生成するための対角的制約,2) 効果的なコンテント変換とスタイル保存のために導入された知覚的損失に対する循環的整合性,3) 空間空間と時間空間の両方におけるコンテントと運動の整合性を高めるためのドメイン内および領域内における相似性制約,である。
さらに、現在公開されている赤外線と可視光のデータセットは、主にオブジェクトの検出や追跡に使われており、ビデオタスクには適さない不連続画像で構成されているものもある。
そこで我々は,IRVI と呼ばれる I2V ビデオ翻訳のための新しいデータセットを提供する。
具体的には、車両と監視シーンの12連続のビデオクリップがあり、赤外線と可視光の両方を24352フレームに分割することができる。
包括的な実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。
コードとIRVIデータセットはhttps://github.com/BIT-DA/I2V-GANで公開されている。
関連論文リスト
- CapHDR2IR: Caption-Driven Transfer from Visible Light to Infrared Domain [7.007302908953179]
赤外線(IR)イメージングは、極端光条件下でコンテンツをキャプチャするユニークな能力のため、いくつかの分野で利点がある。
代替として、可視光は赤外線画像の合成に使用できるが、それによって画像の細部への忠実さが失われ、シーンの文脈的認識の欠如により不整合が生じる。
論文 参考訳(メタデータ) (2024-11-25T12:23:14Z) - ThermalNeRF: Thermal Radiance Fields [32.881758519242155]
LWIRとRGB画像の集合からシーン再構築のための統一的なフレームワークを提案する。
我々は、前処理のステップとして、RGBと赤外線カメラを互いに調整する。
提案手法は,RGBや熱チャネルに隠された物体を視覚的に除去すると共に,超高分解能な熱分解能を有することを示す。
論文 参考訳(メタデータ) (2024-07-22T02:51:29Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - Raformer: Redundancy-Aware Transformer for Video Wire Inpainting [77.41727407673066]
Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。
ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。
WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
論文 参考訳(メタデータ) (2024-04-24T11:02:13Z) - NiteDR: Nighttime Image De-Raining with Cross-View Sensor Cooperative Learning for Dynamic Driving Scenes [49.92839157944134]
夜間の運転シーンでは、不十分で不均一な照明が暗闇の中でシーンを遮蔽し、画質と可視性が低下する。
雨天時の運転シーンに適した画像デライニング・フレームワークを開発した。
雨の人工物を取り除き、風景表現を豊かにし、有用な情報を復元することを目的としている。
論文 参考訳(メタデータ) (2024-02-28T09:02:33Z) - You Only Need One Color Space: An Efficient Network for Low-light Image Enhancement [50.37253008333166]
低照度画像強調(LLIE)タスクは、劣化した低照度画像から詳細と視覚情報を復元する傾向がある。
水平/垂直インテンシティ(HVI)と呼ばれる新しいトレーニング可能なカラー空間を提案する。
輝度と色をRGBチャネルから切り離して、拡張中の不安定性を緩和するだけでなく、トレーニング可能なパラメータによって異なる照明範囲の低照度画像にも適応する。
論文 参考訳(メタデータ) (2024-02-08T16:47:43Z) - Visibility Constrained Wide-band Illumination Spectrum Design for
Seeing-in-the-Dark [38.11468156313255]
Seeing-in-the-darkは、コンピュータビジョンのタスクの中で、最も重要で挑戦的なタスクの1つだ。
本稿では,広帯域VIS-NIR領域における補助照明の最適スペクトルを設計することにより,NIR2RGB翻訳の堅牢化を図る。
論文 参考訳(メタデータ) (2023-03-21T07:27:37Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Robust Environment Perception for Automated Driving: A Unified Learning
Pipeline for Visual-Infrared Object Detection [2.478658210785]
我々は、頑健な物体検出のために、視覚と熱の両方の知覚ユニットを利用する。
本稿では,物体検出のために,視覚と熱の両方の知覚ユニットを利用する。
論文 参考訳(メタデータ) (2022-06-08T15:02:58Z) - ROMA: Cross-Domain Region Similarity Matching for Unpaired Nighttime
Infrared to Daytime Visible Video Translation [33.96130720406588]
夜間の赤外線と昼間の可視ビデオは、同時に撮影されたペアビデオよりも大きい。
本稿では,cRoss- domain regiOn siMilarity mAtching技術を用いて,大きなギャップを埋めるためのフレームワークROMAを提案する。
我々は、夜間の赤外線と昼間の可視ビデオ翻訳のさらなる研究を奨励する新しい、挑戦的なデータセットを提供する。
論文 参考訳(メタデータ) (2022-04-26T15:08:15Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。