論文の概要: Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting
- arxiv url: http://arxiv.org/abs/2603.01103v1
- Date: Sun, 01 Mar 2026 13:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.513253
- Title: Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting
- Title(参考訳): 油絵用拡散モデルを用いたデータ効率の良いブラシストローク生成
- Authors: Dantong Qin, Alessandro Bozzon, Xian Yang, Xun Zhang, Yike Guo, Pan Wang,
- Abstract要約: そこで本研究では,手書きサンプルの小さなセットから人型ブラシストローク生成を学習する問題について検討する。
Smooth Regularization (SmR) を用いた拡散型フレームワーク StrokeDiff を提案する。
学習したプリミティブをBézierベースの条件付けモジュールで制御可能であることを示す。
- 参考スコア(独自算出の注目度): 60.15416769662556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many creative multimedia systems are built upon visual primitives such as strokes or textures, which are difficult to collect at scale and fundamentally different from natural image data. This data scarcity makes it challenging for modern generative models to learn expressive and controllable primitives, limiting their use in process-aware content creation. In this work, we study the problem of learning human-like brushstroke generation from a small set of hand-drawn samples (n=470) and propose StrokeDiff, a diffusion-based framework with Smooth Regularization (SmR). SmR injects stochastic visual priors during training, providing a simple mechanism to stabilize diffusion models under sparse supervision without altering the inference process. We further show how the learned primitives can be made controllable through a Bézier-based conditioning module and integrated into a complete stroke-based painting pipeline, including prediction, generation, ordering, and compositing. This demonstrates how data-efficient primitive modeling can support expressive and structured multimedia content creation. Experiments indicate that the proposed approach produces diverse and structurally coherent brushstrokes and enables paintings with richer texture and layering, validated by both automatic metrics and human evaluation.
- Abstract(参考訳): 多くのクリエイティブなマルチメディアシステムは、ストロークやテクスチャのような視覚的プリミティブの上に構築されている。
このデータ不足により、現代的な生成モデルでは、表現的で制御可能なプリミティブを学習することが難しくなり、プロセス対応のコンテンツ生成における使用が制限される。
本研究では,手書きサンプル(n=470)から人型ブラシストローク生成を学習する問題について検討し,Smooth Regularization(SmR)を用いた拡散型フレームワークであるStrokeDiffを提案する。
SmRは、トレーニング中に確率的視覚前兆を注入し、推論プロセスを変更することなく、スパース監視下で拡散モデルを安定化するための単純なメカニズムを提供する。
さらに、Bézierベースの条件付けモジュールを通じて学習したプリミティブをどのように制御可能とし、予測、生成、順序付け、合成を含む完全なストロークベースのペイントパイプラインに統合できるかを示す。
これは、データ効率の良いプリミティブモデリングが、表現的かつ構造化されたマルチメディアコンテンツ生成をどのようにサポートするかを示す。
実験により,提案手法は多種多様で構造的に整合したブラシストロークを作製し,自動測定と人的評価の両面から,よりリッチなテクスチャと層構造を持つ絵画を可能にすることが示された。
関連論文リスト
- Training Data Attribution for Image Generation using Ontology-Aligned Knowledge Graphs [3.686386213696443]
本稿では,知識グラフの自動構築を通じて生成出力を解釈するフレームワークを提案する。
本手法は, 画像から立体構造を抽出し, 領域固有のオントロジーと整合する。
生成された画像とトレーニング画像のKGを比較して、潜在的な影響をトレースし、著作権分析、データセットの透明性、解釈可能なAIを可能にします。
論文 参考訳(メタデータ) (2025-12-02T12:45:20Z) - Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [118.52589065972795]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Efficient Flow Matching using Latent Variables [9.363347684114474]
我々は、texttLatent-CFM$は、最先端のフローマッチングモデルよりも、トレーニングや計算が大幅に少ないため、生成品質が向上していることを示す。
また、物理過程から生じる空間場の生成的モデリングについても検討する。
論文 参考訳(メタデータ) (2025-05-07T14:59:23Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning [2.037819652873519]
本稿では,フォトリアリスティック物理ベースレンダリング(PBR)材料を生成する新しいアプローチであるStableMaterialsを紹介する。
本手法は,既存の大規模画像生成モデルから知識を抽出するために,逆行訓練を用いる。
拡散ステップの少ない視覚的アーティファクトを除去する新しいタイルビリティ手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T16:29:46Z) - Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
生成モデルを利用して意味論的に一貫した画像拡張を生成することにより、自己教師付き学習(SSL)パラダイムを充実させるフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - MatFuse: Controllable Material Generation with Diffusion Models [10.993516790237503]
MatFuseは3D素材の作成と編集に拡散モデルの生成力を利用する統一的なアプローチである。
本手法は,カラーパレット,スケッチ,テキスト,画像など,複数のコンディショニング源を統合し,創造性を向上する。
複数の条件設定下でのMatFuseの有効性を実証し,材料編集の可能性を探る。
論文 参考訳(メタデータ) (2023-08-22T12:54:48Z) - DiffSketcher: Text Guided Vector Sketch Synthesis through Latent
Diffusion Models [33.6615688030998]
DiffSketcherは、自然言語入力を使用してテキストベクトル化されたフリーハンドスケッチを作成する革新的なアルゴリズムである。
我々の実験は、DiffSketcherが以前の作業よりも高い品質を実現していることを示している。
論文 参考訳(メタデータ) (2023-06-26T13:30:38Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC [102.64648158034568]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Denoising Diffusion Probabilistic Models for Generation of Realistic
Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。
提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文 参考訳(メタデータ) (2023-01-02T14:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。