論文の概要: Loomis Painter: Reconstructing the Painting Process
- arxiv url: http://arxiv.org/abs/2511.17344v1
- Date: Fri, 21 Nov 2025 16:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.094522
- Title: Loomis Painter: Reconstructing the Painting Process
- Title(参考訳): Loomis Painter: 塗装工程の再構築
- Authors: Markus Pobitzer, Chang Liu, Chenyi Zhuang, Teng Long, Bin Ren, Nicu Sebe,
- Abstract要約: ステップバイステップの絵画チュートリアルは芸術的技法を学ぶのに不可欠であるが、既存のビデオリソースには対話性とパーソナライゼーションが欠如している。
セマンティクス駆動型スタイル制御機構を用いたマルチメディア描画プロセス生成のための統一的なフレームワークを提案する。
また、実際の絵画プロセスの大規模データセットを構築し、メディア間の整合性、時間的コヒーレンス、最終的なイメージの忠実性を評価する。
- 参考スコア(独自算出の注目度): 56.713812157283805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Step-by-step painting tutorials are vital for learning artistic techniques, but existing video resources (e.g., YouTube) lack interactivity and personalization. While recent generative models have advanced artistic image synthesis, they struggle to generalize across media and often show temporal or structural inconsistencies, hindering faithful reproduction of human creative workflows. To address this, we propose a unified framework for multi-media painting process generation with a semantics-driven style control mechanism that embeds multiple media into a diffusion models conditional space and uses cross-medium style augmentation. This enables consistent texture evolution and process transfer across styles. A reverse-painting training strategy further ensures smooth, human-aligned generation. We also build a large-scale dataset of real painting processes and evaluate cross-media consistency, temporal coherence, and final-image fidelity, achieving strong results on LPIPS, DINO, and CLIP metrics. Finally, our Perceptual Distance Profile (PDP) curve quantitatively models the creative sequence, i.e., composition, color blocking, and detail refinement, mirroring human artistic progression.
- Abstract(参考訳): ステップバイステップの絵画チュートリアルは芸術的技法を学ぶのに不可欠だが、既存のビデオリソース(例えばYouTube)は対話性とパーソナライゼーションが欠如している。
最近の生成モデルは、高度な芸術的な画像合成を持っているが、メディア全体の一般化に苦慮し、時間的または構造的な矛盾をしばしば示し、人間の創造的ワークフローの忠実な再現を妨げる。
そこで本研究では,複数のメディアを拡散モデル空間に埋め込むセマンティクス駆動型スタイル制御機構を備えたマルチメディア絵画プロセス生成のための統一的なフレームワークを提案する。
これにより、一貫したテクスチャの進化とスタイル間のプロセス転送が可能になる。
リバースペイントトレーニング戦略は、スムーズでヒューマンアライメントな生成をさらに保証します。
また,実際の絵画プロセスの大規模データセットを構築し,メディア間の整合性,時間的コヒーレンス,最終像の忠実度を評価し,LPIPS,DINO,CLIP測定値の強い結果を得た。
最後に、私たちの知覚距離プロファイル(PDP)曲線は、創造的シーケンス、すなわち、構成、色ブロック、詳細精細化を定量的にモデル化し、人間の芸術的進歩を反映する。
関連論文リスト
- Birth of a Painting: Differentiable Brushstroke Reconstruction [25.61763988336406]
絵画は視覚的なストーリーテリングのユニークな形態を具現化しており、創造過程は最終作品と同じくらい重要である。
我々のアプローチはリアルでスタイリッシュな外観を生み出し、デジタル絵画の統一モデルを提供する。
論文 参考訳(メタデータ) (2025-11-17T09:55:53Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Draw Like an Artist: Complex Scene Generation with Diffusion Model via Composition, Painting, and Retouching [16.98431990178662]
複雑なシーンを正確に定義し、この定義に基づいて複雑な分解基準(CDC)を導入する。
アーティストの絵を描くプロセスに触発されて,コンプレックス拡散(CxD)と呼ばれる学習自由拡散フレームワークを提案し,その過程を3段階に分けて構成,絵画,リタッチを行う。
論文 参考訳(メタデータ) (2024-08-25T15:05:32Z) - Artistic Intelligence: A Diffusion-Based Framework for High-Fidelity Landscape Painting Synthesis [2.205829309604458]
LPGenはランドスケープ・ペインティング・ジェネレーションに特化して設計された新しい拡散モデルである。
LPGenは、構造的およびスタイリスティックな特徴を独立して処理する分離されたクロスアテンションメカニズムを導入している。
モデルは高解像度のランドスケープ画像のキュレートされたデータセットに事前トレーニングされ、異なる芸術様式で分類され、詳細で一貫した出力を確保するために微調整される。
論文 参考訳(メタデータ) (2024-07-24T12:32:24Z) - ProcessPainter: Learn Painting Process from Sequence Data [27.9875429986135]
画家の絵画の過程は本質的に段階的に変化しており、異なる画家や様式によって大きく異なる。
従来のストロークベースのレンダリング手法は、画像をブラシストロークのシーケンスに分解するが、アーティストの真正なプロセスの複製には不十分である。
ProcessPainterは、最初は合成データに基づいて事前訓練され、その後、特定のアーティストの絵のシーケンスで微調整されるテキスト・ビデオ・モデルである。
論文 参考訳(メタデータ) (2024-06-10T07:18:41Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion [73.08710648258985]
レイアウト、視点、形状、意味といった重要な絵の属性は、しばしばスタイル転送によって伝達され、表現されない。
大規模な事前訓練された画像生成モデルは、大量の高品質な画像を合成できることを実証している。
我々の主要なアイデアは、スタイルを現実の世界に移すのではなく、多モーダルな意味情報を合成ガイドとしてアートに組み込むことである。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。