Fugu-MT 論文翻訳(概要): Modeling Artistic Workflows for Image Generation and Editing

論文の概要: Modeling Artistic Workflows for Image Generation and Editing

arxiv url: http://arxiv.org/abs/2007.07238v1
Date: Tue, 14 Jul 2020 17:54:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 14:58:58.349775
Title: Modeling Artistic Workflows for Image Generation and Editing
Title（参考訳）: 画像生成と編集のためのアートワークフローのモデリング
Authors: Hung-Yu Tseng, Matthew Fisher, Jingwan Lu, Yijun Li, Vladimir Kim, Ming-Hsuan Yang
Abstract要約: 与えられた芸術的ワークフローに従う生成モデルを提案する。既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
参考スコア（独自算出の注目度）: 83.43047077223947
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: People often create art by following an artistic workflow involving multiple stages that inform the overall design. If an artist wishes to modify an earlier decision, significant work may be required to propagate this new decision forward to the final artwork. Motivated by the above observations, we propose a generative model that follows a given artistic workflow, enabling both multi-stage image generation as well as multi-stage image editing of an existing piece of art. Furthermore, for the editing scenario, we introduce an optimization process along with learning-based regularization to ensure the edited image produced by the model closely aligns with the originally provided image. Qualitative and quantitative results on three different artistic datasets demonstrate the effectiveness of the proposed framework on both image generation and editing tasks.
Abstract（参考訳）: 人々は、デザイン全体を伝える複数のステージを含む芸術的なワークフローに従うことで、しばしばアートを作成する。アーティストが初期の決定を修正したい場合、この新たな決定を最終的な作品に広めるために重要な作業が必要となる。上記の観察に動機づけられ,既存の芸術作品の多段階画像生成と多段階画像編集の両方を可能にする,所定の芸術的ワークフローに従う生成モデルを提案する。さらに, 編集シナリオでは, モデルが生成した編集画像が元の画像と密接に一致するように, 学習に基づく正規化とともに最適化プロセスを導入する。 3つの異なる芸術的データセットの質的および定量的な結果は、画像生成と編集の両方におけるフレームワークの有効性を示す。

関連論文リスト

EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
A Tiered GAN Approach for Monet-Style Image Generation [0.562479170374811]
本稿では,多段階プロセスにより画像品質を段階的に改善する階層型GANモデルを提案する。このモデルはランダムノイズを詳細な芸術表現に変換し、トレーニングにおける不安定性、モード崩壊、出力品質といった共通の課題に対処する。
論文参考訳（メタデータ） (2024-12-07T19:10:29Z)
Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文参考訳（メタデータ） (2024-09-30T04:59:12Z)
Image Inpainting Models are Effective Tools for Instruction-guided Image Editing [42.63350374074953]
CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing Trackの優勝作品である。 4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
論文参考訳（メタデータ） (2024-07-18T03:55:33Z)
LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing [20.861672583434718]
LIPEは、2段階のフレームワークであり、同じ主題の画像の限られたセットを利用して生成モデルをカスタマイズするように設計されている。 LIPEは、同じ対象の限られた画像集合を用いて生成モデルをカスタマイズする2段階のフレームワークであり、その後、非厳密な画像編集のために学習済みのモデルを用いる。
論文参考訳（メタデータ） (2024-06-25T02:56:16Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文参考訳（メタデータ） (2024-05-27T04:44:36Z)
Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文参考訳（メタデータ） (2024-02-21T18:36:26Z)
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文参考訳（メタデータ） (2024-01-25T10:42:09Z)
Integrating View Conditions for Image Synthesis [14.738884513493227]
本稿では、視点情報を統合して画像編集タスクの制御を強化する先駆的なフレームワークを提案する。我々は、画像編集法で満たすべき3つの必須基準、一貫性、可制御性、調和を蒸留する。
論文参考訳（メタデータ） (2023-10-24T16:55:07Z)
End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文参考訳（メタデータ） (2022-05-03T17:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。