論文の概要: Single UHD Image Dehazing via Interpretable Pyramid Network
- arxiv url: http://arxiv.org/abs/2202.08589v1
- Date: Thu, 17 Feb 2022 11:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 15:16:29.043177
- Title: Single UHD Image Dehazing via Interpretable Pyramid Network
- Title(参考訳): 解釈可能なピラミッドネットワークによる単一uhd画像デハジング
- Authors: Boxue Xiao, Zhuoran Zheng, Xiang Chen, Chen Lv, Yunliang Zhuang, Tao
Wang
- Abstract要約: 現在、ほとんどのシングルイメージデハージングモデルは、単一のGPUで超高解像度(UHD)イメージをリアルタイムで実行することはできない。
テイラーの定理をラプラスのピラミッドパターンで無限近似する原理を導入し、4K画像をリアルタイムで処理できるモデルを構築する。
- 参考スコア(独自算出の注目度): 10.00144096602321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, most single image dehazing models cannot run an
ultra-high-resolution (UHD) image with a single GPU shader in real-time. To
address the problem, we introduce the principle of infinite approximation of
Taylor's theorem with the Laplace pyramid pattern to build a model which is
capable of handling 4K hazy images in real-time. The N branch networks of the
pyramid network correspond to the N constraint terms in Taylor's theorem.
Low-order polynomials reconstruct the low-frequency information of the image
(e.g. color, illumination). High-order polynomials regress the high-frequency
information of the image (e.g. texture). In addition, we propose a Tucker
reconstruction-based regularization term that acts on each branch network of
the pyramid model. It further constrains the generation of anomalous signals in
the feature space. Extensive experimental results demonstrate that our approach
can not only run 4K images with haze in real-time on a single GPU (80FPS) but
also has unparalleled interpretability.
The developed method achieves state-of-the-art (SOTA) performance on two
benchmarks (O/I-HAZE) and our updated 4KID dataset while providing the reliable
groundwork for subsequent optimization schemes.
- Abstract(参考訳): 現在、ほとんどのシングルイメージデハージングモデルは、単一のGPUシェーダを持つ超高解像度(UHD)イメージをリアルタイムで実行することはできない。
この問題を解決するために,テイラーの定理をラプラスのピラミッドパターンで無限近似する原理を導入し,4Kハジー画像をリアルタイムで処理できるモデルを構築する。
ピラミッドネットワークの N 分岐ネットワークはテイラーの定理における N の制約項に対応する。
低次多項式は、画像の低周波情報(色、照明など)を再構成する。
高次多項式は、画像の高周波情報(例えばテクスチャ)を抑圧する。
さらに,ピラミッドモデルの各分岐ネットワークに作用するタッカー再構成に基づく正規化項を提案する。
さらに、特徴空間における異常信号の生成を制限する。
広範な実験結果から,hazeを用いた4kイメージを単一のgpu (80fps) 上でリアルタイムに動作させるだけでなく,並列性のない解釈性も実現できた。
2つのベンチマーク(o/i-haze)と更新された4kidデータセットで最先端(sota)性能を実現し,その後の最適化手法に対する信頼性の高い基盤を提供する。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - 4K-Resolution Photo Exposure Correction at 125 FPS with ~8K Parameters [9.410502389242815]
本稿では,8Kパラメータしか持たない超軽量なマルチスケール線形変換(MSLT)ネットワークを提案する。
MSLTネットワークは4K解像度のsRGB画像をTitan GTX GPUで125 Frame-Per-Second (FPS)で処理することができる。
2つのベンチマークデータセットの実験は、写真露出補正の最先端技術に対するMSLTの効率を実証している。
論文 参考訳(メタデータ) (2023-11-15T08:01:12Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - Perceptually Optimized Deep High-Dynamic-Range Image Tone Mapping [44.00069411131762]
まず、HDR画像を正規化されたラプラシアンピラミッドに分解し、2つのディープニューラルネットワーク(DNN)を用いて、所望のトーンマップ画像のラプラシアンピラミッドを正規化された表現から推定する。
次に、正規化ラプラシアピラミッド距離を最小化することにより、HDR画像のデータベース上での手法全体をエンドツーエンドで最適化する。
論文 参考訳(メタデータ) (2021-09-01T04:17:31Z) - Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis [7.726465518306907]
永続的な課題は、同じ入力画像から出力画像の多様なバージョンを生成することである。
我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。
FID(Frechet Inception Distance)は、ベースラインに比べて最大45.3%低減できる。
論文 参考訳(メタデータ) (2021-06-16T17:58:13Z) - High-Resolution Photorealistic Image Translation in Real-Time: A
Laplacian Pyramid Translation Network [23.981019687483506]
閉形式ラプラシアピラミッドの分解と再構成に基づく高分解能フォトリアリスティックI2ITタスクの高速化に着目する。
この2つのタスクを同時に実行するために,ラプラシアンピラミッド翻訳ネットワーク(N)を提案する。
我々のモデルは高解像度の特徴写像を処理し、画像の詳細を忠実に保存することで消費される重い計算の大部分を回避している。
論文 参考訳(メタデータ) (2021-05-19T15:05:22Z) - Adversarial Generation of Continuous Images [31.92891885615843]
本稿では,INRに基づく画像デコーダ構築のための2つの新しいアーキテクチャ手法を提案する。
私たちは、最先端の連続画像GANを構築するためにそれらを使用します。
提案したINR-GANアーキテクチャは連続画像生成装置の性能を数倍改善する。
論文 参考訳(メタデータ) (2020-11-24T11:06:40Z) - Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。
ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。
Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文 参考訳(メタデータ) (2020-11-03T02:57:01Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。