論文の概要: Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization
- arxiv url: http://arxiv.org/abs/2109.05750v1
- Date: Mon, 13 Sep 2021 07:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:35:18.173000
- Title: Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization
- Title(参考訳): 効率的な高分解能画像調和のための空間分離曲線レンダリングネットワーク
- Authors: Jingtang Liang, Xiaodong Cun and Chi-Man Pun
- Abstract要約: 本稿では,空間分離型曲線描画ネットワーク(S2CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
- 参考スコア(独自算出の注目度): 59.19214040221055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image harmonization aims to modify the color of the composited region with
respect to the specific background. Previous works model this task as a
pixel-wise image-to-image translation using UNet family structures. However,
the model size and computational cost limit the performability of their models
on edge devices and higher-resolution images. To this end, we propose a novel
spatial-separated curve rendering network (S2CRNet) for efficient and
high-resolution image harmonization for the first time. In S$^2$CRNet, we
firstly extract the spatial-separated embeddings from the thumbnails of the
masked foreground and background individually. Then, we design a curve
rendering module (CRM), which learns and combines the spatial-specific
knowledge using linear layers to generate the parameters of the pixel-wise
curve mapping in the foreground region. Finally, we directly render the
original high-resolution images using the learned color curve. Besides, we also
make two extensions of the proposed framework via the Cascaded-CRM and
Semantic-CRM for cascaded refinement and semantic guidance, respectively.
Experiments show that the proposed method reduces more than 90\% parameters
compared with previous methods but still achieves the state-of-the-art
performance on both synthesized iHarmony4 and real-world DIH test set.
Moreover, our method can work smoothly on higher resolution images in real-time
which is more than 10$\times$ faster than the existing methods. The code and
pre-trained models will be made available and released soon.
- Abstract(参考訳): イメージ調和は、特定の背景に関して合成領域の色を変更することを目的としている。
以前の作業では、このタスクをUNetファミリー構造を用いたピクセル単位の画像-画像変換としてモデル化していた。
しかし、モデルのサイズと計算コストは、エッジデバイスや高解像度画像でのモデルの実行性を制限する。
そこで本研究では,空間分離型曲線描画ネットワーク(S2CRNet)を提案する。
S$^2$CRNetでは、まず、マスクされた前景と背景のサムネイルから空間分離された埋め込みを個別に抽出する。
そこで我々は,前景領域の画素単位の曲線マッピングのパラメータを生成するために,線形層を用いて空間固有知識を学習・結合する曲線描画モジュール(CRM)を設計する。
最後に、学習した色曲線を用いて、元の高解像度画像を直接レンダリングする。
さらに、我々はCascaded-CRMとSemantic-CRMを通じて提案されたフレームワークの2つの拡張も行います。
実験により,従来手法と比較して90\%以上のパラメータを削減できたが,合成iharmony4と実世界のdihテストセットでは性能が向上した。
さらに,提案手法は,既存の手法よりも10$\times$以上の高解像度画像をリアルタイムにスムーズに処理することができる。
コードと事前訓練されたモデルは間もなく利用可能になり、リリースされる予定だ。
関連論文リスト
- Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - Realistic Extreme Image Rescaling via Generative Latent Space Learning [51.85790402171696]
極端画像再スケーリングのためのLatent Space Based Image Rescaling (LSBIR) という新しいフレームワークを提案する。
LSBIRは、訓練済みのテキスト-画像拡散モデルによって学習された強力な自然画像の先行を効果的に活用し、リアルなHR画像を生成する。
第1段階では、擬似非可逆エンコーダデコーダは、HR画像の潜在特徴とターゲットサイズのLR画像との双方向マッピングをモデル化する。
第2段階では、第1段階からの再構成された特徴を事前訓練された拡散モデルにより洗練し、より忠実で視覚的に喜ぶ詳細を生成する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering [84.37776381343662]
Mip-NeRFは、スケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。
我々は,リアルタイムなアンチエイリアスレンダリングのためのマルチスケールな明示的表現であるmip voxel grids (Mip-VoG)を提案する。
私たちのアプローチは、マルチスケールのトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。
論文 参考訳(メタデータ) (2023-04-20T04:05:22Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Dense Pixel-to-Pixel Harmonization via Continuous Image Representation [22.984119094424056]
Inlicit Neural Networks (HINet) を用いた新しい画像調和手法を提案する。
Retinex理論に触発されて、調和を2つの部分に分離し、合成画像の内容と環境をそれぞれキャプチャする。
本手法の有効性を,最先端の手法と比較した実験により検証した。
論文 参考訳(メタデータ) (2023-03-03T02:52:28Z) - FRIH: Fine-grained Region-aware Image Harmonization [49.420765789360836]
我々は,FRIH(Fentral-Aware Image Harmonization)のための新しいグローバルな2段階フレームワークを提案する。
提案アルゴリズムは,軽量モデルを用いて,iHarmony4データセット(PSNRは38.19dB)上で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-05-13T04:50:26Z) - SCSNet: An Efficient Paradigm for Learning Simultaneously Image
Colorization and Super-Resolution [39.77987463287673]
画像のカラー化と超解像(SCS)を同時に行うための効率的なパラダイムを提案する。
提案手法は2つの部分から構成される: プラグアンドプレイのemphPyramid Valve Cross Attention (PVCAttn)モジュールを用いた色情報学習用カラー化ブランチ。
我々のSCSNetは、実用上よりフレキシブルな自動モードと参照モードの両方をサポートしている。
論文 参考訳(メタデータ) (2022-01-12T08:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。