論文の概要: Multi-Curve Translator for Real-Time High-Resolution Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2203.07756v1
- Date: Tue, 15 Mar 2022 10:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 14:49:06.961061
- Title: Multi-Curve Translator for Real-Time High-Resolution Image-to-Image
Translation
- Title(参考訳): リアルタイム高分解能画像変換のためのマルチサーブ変換器
- Authors: Yuda Song, Hui Qian, Xin Du
- Abstract要約: Multi-Curve Translator (MCT) は、対応する入力ピクセルと隣接ピクセルの変換ピクセルを予測する。
MCTにより、ダウンサンプリングされた画像のみをネットワークに供給し、フル解像度画像のマッピングを実行することができる。
MCTの変種は4K画像をリアルタイムで処理でき、ベースモデルと同等またはそれ以上のパフォーマンスを達成できる。
- 参考スコア(独自算出の注目度): 24.651984136294242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant image-to-image translation methods are based on fully
convolutional networks, which extract and translate an image's features and
then reconstruct the image. However, they have unacceptable computational costs
when working with high-resolution images. To this end, we present the
Multi-Curve Translator (MCT), which not only predicts the translated pixels for
the corresponding input pixels but also for their neighboring pixels. And if a
high-resolution image is downsampled to its low-resolution version, the lost
pixels are the remaining pixels' neighboring pixels. So MCT makes it possible
to feed the network only the downsampled image to perform the mapping for the
full-resolution image, which can dramatically lower the computational cost.
Besides, MCT is a plug-in approach that utilizes existing base models and
requires only replacing their output layers. Experiments demonstrate that the
MCT variants can process 4K images in real-time and achieve comparable or even
better performance than the base models on various image-to-image translation
tasks.
- Abstract(参考訳): 画像から画像への翻訳手法は、画像の特徴を抽出し翻訳し、画像を再構成する完全な畳み込みネットワークに基づいている。
しかし、高解像度画像を扱う場合の計算コストは許容できない。
そこで本研究では,対応する入力画素の変換画素を予測できるマルチカーブ変換器(mct)を提案する。
そして高解像度画像が低解像度版にダウンサンプリングされた場合、失われたピクセルは残りのピクセルの隣のピクセルである。
そのためmctは、ダウンサンプリングされた画像のみにネットワークを供給し、全解像度画像のマッピングを実行することができ、計算コストを劇的に削減することができる。
さらに、MCTは既存のベースモデルを利用するプラグインアプローチであり、出力層のみを置き換える必要がある。
MCTの変種は、4K画像をリアルタイムで処理し、様々な画像から画像への変換タスクのベースモデルと同等またはそれ以上の性能を達成できることを示した。
関連論文リスト
- Every Pixel Has its Moments: Ultra-High-Resolution Unpaired Image-to-Image Translation via Dense Normalization [4.349838917565205]
画素レベルの統計モーメントを推定するために設計されたDense Normalization層を導入する。
このアプローチは、局所色と色調のコントラストを同時に保存しながら、ティリングアーティファクトを効果的に減少させる。
我々の研究は、未ペア画像から画像への翻訳の範囲内で任意の解像度の画像を扱うための将来の探索の道を開く。
論文 参考訳(メタデータ) (2024-07-05T04:14:50Z) - Exploring Multi-view Pixel Contrast for General and Robust Image Forgery Localization [4.8454936010479335]
本稿では,画像フォージェリーローカライゼーションのための多視点Pixel-wise Contrastive Algorithm (MPC)を提案する。
具体的には、まず、教師付きコントラスト損失を伴うバックボーンネットワークを事前訓練する。
次に、クロスエントロピー損失を用いてローカライゼーションヘッドを微調整し、ピクセルローカライザを改良する。
論文 参考訳(メタデータ) (2024-06-19T13:51:52Z) - High-Resolution Image Translation Model Based on Grayscale Redefinition [3.6996084306161277]
本稿では,異なる領域間の画像翻訳のための革新的な手法を提案する。
高解像度画像翻訳タスクでは、グレースケール調整法を用いてピクセルレベルの変換を行う。
他のタスクでは、Pix2PixHDモデルを使い、粗大な生成装置、マルチスケールの判別器、画像翻訳性能を向上させるために損失の改善を行う。
論文 参考訳(メタデータ) (2024-03-26T12:21:47Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - CDPMSR: Conditional Diffusion Probabilistic Models for Single Image
Super-Resolution [91.56337748920662]
拡散確率モデル(DPM)は画像から画像への変換において広く採用されている。
単純だが自明なDPMベースの超解像後処理フレームワーク,すなわちcDPMSRを提案する。
本手法は, 定性的および定量的な結果の両面において, 先行試行を超越した手法である。
論文 参考訳(メタデータ) (2023-02-14T15:13:33Z) - PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for
Cross-View Image Translation [84.97160975101718]
本稿では,新しい並列-ConvMLPモジュールと,複数のセマンティックレベルでのインプリシット変換モジュールで構成される,新しい生成逆ネットワークPI-Transを提案する。
PI-Transは、2つの挑戦的データセットの最先端手法と比較して、大きなマージンで最も質的で定量的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-09T10:35:44Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - High-Resolution Photorealistic Image Translation in Real-Time: A
Laplacian Pyramid Translation Network [23.981019687483506]
閉形式ラプラシアピラミッドの分解と再構成に基づく高分解能フォトリアリスティックI2ITタスクの高速化に着目する。
この2つのタスクを同時に実行するために,ラプラシアンピラミッド翻訳ネットワーク(N)を提案する。
我々のモデルは高解像度の特徴写像を処理し、画像の詳細を忠実に保存することで消費される重い計算の大部分を回避している。
論文 参考訳(メタデータ) (2021-05-19T15:05:22Z) - Spatially-Adaptive Pixelwise Networks for Fast Image Translation [57.359250882770525]
高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。
私たちのモデルは最先端のベースラインよりも最大18倍高速です。
論文 参考訳(メタデータ) (2020-12-05T10:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。