Fugu-MT 論文翻訳(概要): Foreground-aware Semantic Representations for Image Harmonization

論文の概要: Foreground-aware Semantic Representations for Image Harmonization

arxiv url: http://arxiv.org/abs/2006.00809v1
Date: Mon, 1 Jun 2020 09:27:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-26 07:15:17.424982
Title: Foreground-aware Semantic Representations for Image Harmonization
Title（参考訳）: 画像調和のための前景対応意味表現
Authors: Konstantin Sofiiuk, Polina Popenova and Anton Konushin
Abstract要約: 本稿では,事前学習型分類ネットワークによって学習された高レベルの特徴空間を利用する新しいアーキテクチャを提案する。既存の画像調和ベンチマークにおいて提案手法を広範に評価し,MSEとPSNRの指標から新たな最先端の手法を構築した。
参考スコア（独自算出の注目度）: 5.156484100374058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image harmonization is an important step in photo editing to achieve visual consistency in composite images by adjusting the appearances of foreground to make it compatible with background. Previous approaches to harmonize composites are based on training of encoder-decoder networks from scratch, which makes it challenging for a neural network to learn a high-level representation of objects. We propose a novel architecture to utilize the space of high-level features learned by a pre-trained classification network. We create our models as a combination of existing encoder-decoder architectures and a pre-trained foreground-aware deep high-resolution network. We extensively evaluate the proposed method on existing image harmonization benchmark and set up a new state-of-the-art in terms of MSE and PSNR metrics. The code and trained models are available at \url{https://github.com/saic-vul/image_harmonization}.
Abstract（参考訳）: 画像調和は写真編集において重要なステップであり、前景の外観を調整して背景との整合性を持たせることで合成画像の視覚的整合性を実現する。コンポジットを調和させるための以前のアプローチは、エンコーダ-デコーダネットワークをスクラッチからトレーニングすることに基づいているため、ニューラルネットワークがオブジェクトの高レベル表現を学ぶことが困難になる。本稿では,事前学習型分類ネットワークによって学習された高レベルの特徴空間を利用する新しいアーキテクチャを提案する。我々は既存のエンコーダ-デコーダアーキテクチャと事前訓練された前景対応深層高解像度ネットワークの組み合わせとしてモデルを作成する。既存の画像調和ベンチマークにおいて提案手法を広範に評価し,MSEとPSNRの指標から新たな最先端の手法を構築した。コードとトレーニングされたモデルは \url{https://github.com/saic-vul/image_harmonization} で入手できる。

関連論文リスト

GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文参考訳（メタデータ） (2025-11-18T06:40:26Z)
High-Resolution Image Synthesis via Next-Token Prediction [19.97037318862443]
連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。次世代の予測により,最先端の高精細画像合成を実現する。
論文参考訳（メタデータ） (2024-11-22T09:08:58Z)
Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文参考訳（メタデータ） (2024-11-03T04:02:35Z)
PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文参考訳（メタデータ） (2024-01-01T03:45:07Z)
Deep Image Harmonization with Learnable Augmentation [17.690945824240348]
小型データセットの照明多様性を向上し、調和性能を向上させるため、学習可能な拡張法を提案する。 SycoNetは、フォアグラウンドマスクとランダムベクトルで実画像を取り込んで、適切な色変換を学習し、この実画像のフォアグラウンドに適用して合成合成合成画像を生成する。
論文参考訳（メタデータ） (2023-08-01T08:40:23Z)
Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T02:15:53Z)
Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文参考訳（メタデータ） (2022-07-09T13:35:12Z)
Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文参考訳（メタデータ） (2022-06-02T08:34:25Z)
Region-aware Adaptive Instance Normalization for Image Harmonization [14.77918186672189]
フォトリアリスティックな合成画像を得るためには、背景と互換性のある前景の外観と視覚スタイルを調整する必要がある。合成画像の調和のための既存のディープラーニング手法は、合成画像から実画像へのマッピングネットワークを直接学習する。本研究では、背景から視覚スタイルを明示的に定式化し、前景に適応的に適用する、領域対応適応型インスタンス正規化(RAIN)モジュールを提案する。
論文参考訳（メタデータ） (2021-06-05T09:57:17Z)
Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文参考訳（メタデータ） (2020-04-01T12:56:13Z)
Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文参考訳（メタデータ） (2020-01-09T10:37:17Z)
Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文参考訳（メタデータ） (2019-02-18T16:15:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。