論文の概要: Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
- arxiv url: http://arxiv.org/abs/2108.03798v2
- Date: Wed, 11 Aug 2021 13:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 10:30:08.377077
- Title: Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
- Title(参考訳): Paint Transformer:ストローク予測によるフィードフォワードニューラルペイント
- Authors: Songhua Liu, Tianwei Lin, Dongliang He, Fu Li, Ruifeng Deng, Xin Li,
Errui Ding, Hao Wang
- Abstract要約: 我々は,フィードフォワードネットワークを用いたストロークセットのパラメータを予測するために,Paint Transformerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
このようにして、我々のモデルは並列に一組のストロークを生成でき、ほぼリアルタイムでサイズ512 * 512の最終的な絵を得ることができる。
実験により,本手法はトレーニングコストと推論コストの低減により,従来の手法よりも優れた塗装性能が得られることが示された。
- 参考スコア(独自算出の注目度): 36.457204758975074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural painting refers to the procedure of producing a series of strokes for
a given image and non-photo-realistically recreating it using neural networks.
While reinforcement learning (RL) based agents can generate a stroke sequence
step by step for this task, it is not easy to train a stable RL agent. On the
other hand, stroke optimization methods search for a set of stroke parameters
iteratively in a large search space; such low efficiency significantly limits
their prevalence and practicality. Different from previous methods, in this
paper, we formulate the task as a set prediction problem and propose a novel
Transformer-based framework, dubbed Paint Transformer, to predict the
parameters of a stroke set with a feed forward network. This way, our model can
generate a set of strokes in parallel and obtain the final painting of size 512
* 512 in near real time. More importantly, since there is no dataset available
for training the Paint Transformer, we devise a self-training pipeline such
that it can be trained without any off-the-shelf dataset while still achieving
excellent generalization capability. Experiments demonstrate that our method
achieves better painting performance than previous ones with cheaper training
and inference costs. Codes and models are available.
- Abstract(参考訳): ニューラル・ペインティング(Neural painting)とは、ある画像に対して一連のストロークを生成し、ニューラルネットワークを用いて非フォトリアリスティックに再現する手順である。
強化学習(RL)に基づくエージェントは、このタスクのためにステップごとにストロークシーケンスを生成できるが、安定したRLエージェントを訓練するのは容易ではない。
一方、ストローク最適化手法は、大規模な探索空間において反復的に一連のストロークパラメータを探索する。
本稿では,従来の手法と異なり,このタスクをセット予測問題として定式化し,フィードフォワードネットワークで設定したストロークのパラメータを予測するために,Paint Transformerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
このようにして、モデルが並列に一連のストロークを生成し、ほぼリアルタイムでサイズ512 * 512の最終的な絵を得ることができる。
さらに重要なことは、ペイントトランスフォーマーをトレーニングするためのデータセットがないため、優れた一般化能力を維持しつつ、既成のデータセットなしでトレーニングできるような、自己トレーニングパイプラインを考案する。
提案手法は,従来手法よりも低いトレーニングと推論コストで絵筆性能を向上できることが実証された。
コードとモデルは利用可能である。
関連論文リスト
- AttentionPainter: An Efficient and Adaptive Stroke Predictor for Scene Painting [82.54770866332456]
ストロークベースのレンダリング(SBR)は、入力画像をパラメータ化されたストロークのシーケンスに分解することを目的としており、入力画像に似た絵に描画することができる。
単一ステップのニューラルペイントのための効率よく適応的なモデルであるAttentionPainterを提案する。
論文 参考訳(メタデータ) (2024-10-21T18:36:45Z) - MambaPainter: Neural Stroke-Based Rendering in a Single Step [3.18005110016691]
ストロークに基づくレンダリングは、ブラシストロークシーケンスを予測して入力画像を油絵スタイルに再構築することを目的としている。
単一推論ステップで100以上のブラシストロークのシーケンスを予測できるMambaPainterを提案する。
論文 参考訳(メタデータ) (2024-10-16T13:02:45Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - Accelerating Multiframe Blind Deconvolution via Deep Learning [0.0]
地上からの太陽画像の復元は計算に費用がかかる手続きである。
本稿では,アルゴリズムのアンロールに基づく復元を高速化する手法を提案する。
両手法が標準最適化法と比較して復元時間を大幅に短縮することを示した。
論文 参考訳(メタデータ) (2023-06-21T07:53:00Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Learning Prior Feature and Attention Enhanced Image Inpainting [63.21231753407192]
本稿では,事前学習に基づくMasked AutoEncoder(MAE)を塗装モデルに組み込む。
マスク付き領域とマスキングされていない領域間の長距離依存性をより学習させるために,MAE の注意点を用いた手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T04:32:53Z) - Improving Deep Learning Interpretability by Saliency Guided Training [36.782919916001624]
精度法はモデル予測において重要な入力特徴を強調するために広く用いられている。
既存の方法の多くは、修正された勾配関数のバックプロパゲーションを使用して、サリエンシマップを生成する。
本稿では,予測に使用する雑音勾配を低減するために,ニューラルネットワークに対するサリエンシ指導訓練手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:05:23Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。