論文の概要: Modernizing Old Photos Using Multiple References via Photorealistic
Style Transfer
- arxiv url: http://arxiv.org/abs/2304.04461v1
- Date: Mon, 10 Apr 2023 09:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 15:37:45.972439
- Title: Modernizing Old Photos Using Multiple References via Photorealistic
Style Transfer
- Title(参考訳): フォトリアリスティックなスタイル転送による複数参照による古い写真の近代化
- Authors: Agus Gunawan, Soo Ye Kim, Hyeonjun Sim, Jae-Ho Lee, Munchurl Kim
- Abstract要約: 本稿では,ネットワークMROPM-Netと合成データ生成方式を組み合わせた新しい写真モダナイゼーションフレームワークを提案する。
MROPM-Netは、フォトリアリスティック・スタイル転送(PST)を介して複数の参照を用いて古い写真をスタイリングし、その結果をさらに強化してモダンな画像を生成する。
提案手法は,画像中の各意味領域の複数の参照からスタイルを適切に選択し,モダナイゼーション性能を向上する。
- 参考スコア(独自算出の注目度): 46.83712015398512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper firstly presents old photo modernization using multiple references
by performing stylization and enhancement in a unified manner. In order to
modernize old photos, we propose a novel multi-reference-based old photo
modernization (MROPM) framework consisting of a network MROPM-Net and a novel
synthetic data generation scheme. MROPM-Net stylizes old photos using multiple
references via photorealistic style transfer (PST) and further enhances the
results to produce modern-looking images. Meanwhile, the synthetic data
generation scheme trains the network to effectively utilize multiple references
to perform modernization. To evaluate the performance, we propose a new old
photos benchmark dataset (CHD) consisting of diverse natural indoor and outdoor
scenes. Extensive experiments show that the proposed method outperforms other
baselines in performing modernization on real old photos, even though no old
photos were used during training. Moreover, our method can appropriately select
styles from multiple references for each semantic region in the old photo to
further improve the modernization performance.
- Abstract(参考訳): 本稿は,スタイライゼーションとエンハンスメントを統一的に行うことにより,複数の参照を用いた古い写真モダナイゼーションを提案する。
画像の近代化のために,ネットワークMROPM-Netと合成データ生成方式を組み合わせた,新しいマルチ参照型写真モダナイゼーション(MROPM)フレームワークを提案する。
MROPM-Netは、フォトリアリスティック・スタイル転送(PST)を介して複数の参照を用いて古い写真をスタイリングし、その結果をさらに強化してモダンな画像を生成する。
一方,合成データ生成方式では,複数の参照を効果的に活用して近代化を行うようにネットワークを訓練する。
そこで,本研究では,室内と屋外のさまざまなシーンからなる新しい古写真ベンチマークデータセット(chd)を提案する。
広範にわたる実験により,本手法は他のベースラインを上回っており,トレーニング中に古い写真が使われていないにもかかわらず,実際の古い写真の近代化を行っている。
また,従来の写真では,各意味領域の複数の参照からスタイルを適切に選択でき,さらに近代化性能が向上する。
関連論文リスト
- MuseumMaker: Continual Style Customization without Catastrophic Forgetting [50.12727620780213]
本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。
新しいカスタマイズスタイルに直面すると、新しい画像生成のためのトレーニングデータのスタイルを抽出し学習するスタイル蒸留損失モジュールを開発する。
これは、新しい訓練画像の内容による学習バイアスを最小限に抑え、少数ショット画像によって引き起こされる破滅的な過適合問題に対処することができる。
論文 参考訳(メタデータ) (2024-04-25T13:51:38Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Reference-based Image Composition with Sketch via Structure-aware
Diffusion Model [38.1193912666578]
本稿では,参照画像とともに,スケッチを新しいモーダルとして組み込んだマルチインプット条件画像合成モデルを提案する。
スケッチを用いたエッジレベル制御により,画像サブパートの編集や編集が可能である。
筆者らのフレームワークは,スケッチ指導を維持しつつ,参照画像を用いて学習済み拡散モデルを微調整し,欠落した領域を完了させる。
論文 参考訳(メタデータ) (2023-03-31T06:12:58Z) - FastCLIPstyler: Optimisation-free Text-based Image Style Transfer Using
Style Representations [0.0]
我々は、任意のテキスト入力に対して単一のフォワードパスで画像をスタイリングできる一般化されたテキストベースの画像スタイル転送モデルであるFastCLIPstylerを提案する。
また、リソース制約のあるデバイスとの互換性のために設計された軽量モデルであるEdgeCLIPstylerも導入する。
論文 参考訳(メタデータ) (2022-10-07T11:16:36Z) - Text-to-Image Generation via Implicit Visual Guidance and Hypernetwork [38.55086153299993]
我々は、暗黙的な視覚誘導損失と生成目的の組み合わせにより、追加の検索画像を受け入れるテキスト・画像生成のためのアプローチを開発する。
符号化層の重み更新を予測するために,新しいハイパーネットワーク変調型ビジュアルテキスト符号化方式を提案する。
実験の結果,既存のGANモデルよりも優れた検索ビジュアルデータを付加したモデルが導出された。
論文 参考訳(メタデータ) (2022-08-17T19:25:00Z) - Enhancing Photorealism Enhancement [83.88433283714461]
本稿では,畳み込みネットワークを用いた合成画像のリアリズム向上手法を提案する。
一般的に使用されるデータセットのシーンレイアウトの分布を分析し、重要な方法で異なることを見つけます。
近年のイメージ・ツー・イメージ翻訳法と比較して,安定性とリアリズムの大幅な向上が報告されている。
論文 参考訳(メタデータ) (2021-05-10T19:00:49Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。