論文の概要: Content Masked Loss: Human-Like Brush Stroke Planning in a Reinforcement
Learning Painting Agent
- arxiv url: http://arxiv.org/abs/2012.10043v2
- Date: Sat, 27 Feb 2021 16:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 04:16:26.619540
- Title: Content Masked Loss: Human-Like Brush Stroke Planning in a Reinforcement
Learning Painting Agent
- Title(参考訳): コンテンツ仮面損失:強化学習塗料における人型ブラシストローク計画
- Authors: Peter Schaldenbrand and Jean Oh
- Abstract要約: 本稿では,モデル報酬関数を用いた新たな損失関数を提案する。
以上の結果から,コンテンツマスクモデルによるデジタル絵画は,既存の手法よりも早期に被写体を検出できることがわかった。
- 参考スコア(独自算出の注目度): 10.80927979540912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of most Reinforcement Learning painting agents is to minimize
the loss between a target image and the paint canvas. Human painter artistry
emphasizes important features of the target image rather than simply
reproducing it (DiPaola 2007). Using adversarial or L2 losses in the RL
painting models, although its final output is generally a work of finesse,
produces a stroke sequence that is vastly different from that which a human
would produce since the model does not have knowledge about the abstract
features in the target image. In order to increase the human-like planning of
the model without the use of expensive human data, we introduce a new loss
function for use with the model's reward function: Content Masked Loss. In the
context of robot painting, Content Masked Loss employs an object detection
model to extract features which are used to assign higher weight to regions of
the canvas that a human would find important for recognizing content. The
results, based on 332 human evaluators, show that the digital paintings
produced by our Content Masked model show detectable subject matter earlier in
the stroke sequence than existing methods without compromising on the quality
of the final painting. Our code is available at
https://github.com/pschaldenbrand/ContentMaskedLoss.
- Abstract(参考訳): 最も強化された学習用ペイントエージェントの目標は、対象画像とペイントキャンバスの損失を最小限に抑えることである。
人間の画家は単に再現するのではなく、ターゲット画像の重要な特徴を強調している(DiPaola 2007)。
rlペインティングモデルにおける敵対的またはl2の損失は、その最終的なアウトプットは一般的には精細な作品であるが、モデルが対象画像の抽象的な特徴について知識を持っていないため、人間が生成するストロークシーケンスとは大きく異なる。
高価な人間データを使わずにモデルの人間的な計画を増やすために、このモデルの報酬機能を利用するための新しい損失関数、content masked lossを導入する。
ロボット絵画の文脈において、Content Masked Lossはオブジェクト検出モデルを用いて、人間がコンテンツを認識する上で重要と思われるキャンバスの領域により高い重量を割り当てるために使用される特徴を抽出する。
以上の結果から,本モデルが作成したデジタル絵画は,最終的な絵画の質を損なうことなく,既存の手法よりも早いストロークシーケンスで検出可能な被写体を示すことが示された。
私たちのコードはhttps://github.com/pschaldenbrand/ContentMaskedLossで利用可能です。
関連論文リスト
- Masked Extended Attention for Zero-Shot Virtual Try-On In The Wild [17.025262797698364]
仮想トライオン(Virtual Try-On)は、人物や衣服の特徴を保ちながら、画像中の衣服を別のものに置き換えることを目的としている。
現在の文献では、タスクの教師付きアプローチを採用し、一般化を損なうとともに、重い計算を課している。
本稿では,衣服の着衣を参考に塗布するためのゼロショットトレーニングフリーな新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T17:45:37Z) - Fill in the ____ (a Diffusion-based Image Inpainting Pipeline) [0.0]
塗り絵は、画像を撮り、失った、または故意に隠された部分を生成する過程である。
現代の塗装技術は、有能な完成物を生成する際、顕著な能力を示している。
既存のモデルにおける重要なギャップに対処し、何が正確に生成されたかをプロンプトし制御する能力に焦点を当てる。
論文 参考訳(メタデータ) (2024-03-24T05:26:55Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Inst-Inpaint: Instructing to Remove Objects with Diffusion Models [18.30057229657246]
本研究では,自然言語入力に基づいて除去対象を推定し,同時に除去する画像インペイントアルゴリズムに興味を持つ。
本稿では,テキストプロンプトとして与えられた命令に基づいて画像からオブジェクトを除去する新しいインペイントフレームワークInst-Inpaintを提案する。
論文 参考訳(メタデータ) (2023-04-06T17:29:50Z) - SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation [1.7056768055368383]
本稿では,3つの視点から制限に対処するSARGANという新しい手法を提案する。
我々は対称エンコーダ・デコーダネットワークを利用して顔の特徴に複数スケールで対応した。
提案手法は最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-30T08:15:18Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Learning Prior Feature and Attention Enhanced Image Inpainting [63.21231753407192]
本稿では,事前学習に基づくMasked AutoEncoder(MAE)を塗装モデルに組み込む。
マスク付き領域とマスキングされていない領域間の長距離依存性をより学習させるために,MAE の注意点を用いた手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T04:32:53Z) - Pragmatic Image Compression for Human-in-the-Loop Decision-Making [112.40598205054994]
ロスシー画像圧縮アルゴリズムは、画像の外観を保存し、送信に必要なビット数を最小化することを目的としている。
我々は,圧縮画像を用いたタスクの実行において,ループ内学習を通じて圧縮モデルを訓練する。
本手法は,手書き数字の読み出し,顔の写真の検証,オンラインショッピングカタログ閲覧,カーレースビデオゲームの4つのタスクにおいて,被験者による実験により評価を行った。
論文 参考訳(メタデータ) (2021-07-07T17:45:53Z) - ReGO: Reference-Guided Outpainting for Scenery Image [82.21559299694555]
生成的敵対学習は、与えられた画像に対して意味的一貫したコンテンツを生成することによって、画像の画質を向上した。
本研究は, 近隣の画素を借用することにより, テクスチャに富んだ結果を合成する原理について検討する。
生成した部品のスタイルが参照画像の影響を受けないようにするために,ReGOを増強し,スタイル一貫性のある結果を合成するスタイルランキングの損失が提案されている。
論文 参考訳(メタデータ) (2021-06-20T02:34:55Z) - Neural Re-Rendering of Humans from a Single Image [80.53438609047896]
本稿では,新しいユーザ定義のポーズと視点の下での人間のニューラルリレンダリング手法を提案する。
私たちのアルゴリズムは、単一の画像から再構築できるパラメトリックメッシュとして体ポーズと形状を表します。
論文 参考訳(メタデータ) (2021-01-11T18:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。