論文の概要: DoodleFormer: Creative Sketch Drawing with Transformers
- arxiv url: http://arxiv.org/abs/2112.03258v1
- Date: Mon, 6 Dec 2021 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 18:22:22.795694
- Title: DoodleFormer: Creative Sketch Drawing with Transformers
- Title(参考訳): doodleformer:トランスフォーマーを使ったクリエイティブなスケッチ
- Authors: Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer,
Fahad Shahbaz Khan, Jorma Laaksonen, Michael Felsberg
- Abstract要約: 創造的スケッチ(Creative sketching)またはドゥーリング(Duodling)は、日常の視覚的物体の想像的かつ以前は目に見えない描写が描かれた表現的活動である。
本稿では,クリエイティビティスケッチ生成問題を粗いスケッチ合成に分解する,粗い2段階のフレームワークDoodleFormerを提案する。
生成した創作スケッチの多様性を確保するため,確率論的粗いスケッチデコーダを導入する。
- 参考スコア(独自算出の注目度): 68.18953603715514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creative sketching or doodling is an expressive activity, where imaginative
and previously unseen depictions of everyday visual objects are drawn. Creative
sketch image generation is a challenging vision problem, where the task is to
generate diverse, yet realistic creative sketches possessing the unseen
composition of the visual-world objects. Here, we propose a novel
coarse-to-fine two-stage framework, DoodleFormer, that decomposes the creative
sketch generation problem into the creation of coarse sketch composition
followed by the incorporation of fine-details in the sketch. We introduce
graph-aware transformer encoders that effectively capture global dynamic as
well as local static structural relations among different body parts. To ensure
diversity of the generated creative sketches, we introduce a probabilistic
coarse sketch decoder that explicitly models the variations of each sketch body
part to be drawn. Experiments are performed on two creative sketch datasets:
Creative Birds and Creative Creatures. Our qualitative, quantitative and
human-based evaluations show that DoodleFormer outperforms the state-of-the-art
on both datasets, yielding realistic and diverse creative sketches. On Creative
Creatures, DoodleFormer achieves an absolute gain of 25 in terms of Fr`echet
inception distance (FID) over the state-of-the-art. We also demonstrate the
effectiveness of DoodleFormer for related applications of text to creative
sketch generation and sketch completion.
- Abstract(参考訳): 創造的なスケッチやドーリングは表現力に富んだ活動であり、想像力に富み、以前は目に見えない日常の視覚物体の描写が描かれる。
クリエイティビティスケッチ画像生成は、ビジュアルワールドオブジェクトの目に見えない構成を持つ多様な、しかし現実的なクリエイティビティスケッチを生成するというタスクにおいて、困難なビジョン問題である。
そこで本稿では,創造的スケッチ生成問題を粗いスケッチ構成に分解し,さらに細部を組み込んだ,新しい粗面から細部までの2段階の枠組みであるdoodleformerを提案する。
グラフ対応トランスフォーマーエンコーダを導入し,グローバルな動的および局所的な静的な構造的関係を効果的に捉える。
生成した創作スケッチの多様性を確保するため,各スケッチ本体部の変動を明示的にモデル化する確率論的粗いスケッチデコーダを導入する。
実験はCreative BirdsとCreative Creaturesの2つのクリエイティブスケッチデータセットで実施されている。
質的、定量的、人間に基づく評価では、DoodleFormerは両方のデータセットで最先端のパフォーマンスを示し、現実的で多様なクリエイティブスケッチを生み出します。
Creative Creaturesでは、DoodleFormerは最先端のFr`echet開始距離(FID)で25という絶対的なゲインを達成した。
また,テキストの創造的スケッチ生成とスケッチ補完への応用について,DoodleFormerの有効性を示す。
関連論文リスト
- SketchAgent: Language-Driven Sequential Sketch Generation [34.96339247291013]
SketchAgentは言語駆動でシーケンシャルなスケッチ生成方法である。
テキスト内例を通してモデルに導入した直感的なスケッチ言語を提案する。
脳卒中をストロークで描くことで、スケッチに固有の進化的でダイナミックな性質を捉えます。
論文 参考訳(メタデータ) (2024-11-26T18:32:06Z) - FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations [65.64014682930164]
スケッチアニメーションは、単純なフリップブックの落書きからプロのスタジオプロダクションまで、ビジュアルなストーリーテリングのための強力な媒体を提供する。
FlipSketchは、フリップブックアニメーションの魔法を復活させるシステムです。
論文 参考訳(メタデータ) (2024-11-16T14:53:03Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z) - Picture that Sketch: Photorealistic Image Generation from Abstract
Sketches [109.69076457732632]
この論文は、あなたや私のような訓練を受けていないアマチュアの抽象的で変形した普通のスケッチから、それをフォトリアリスティックなイメージに変えます。
まず、エッジマップのようなスケッチを指示するのではなく、抽象的なフリーハンドな人間のスケッチで作業することを目指しています。
そうすることで、スケッチから写真までのパイプラインを民主化し、スケッチがどれだけよいかに関わらず、スケッチを"写真化"します。
論文 参考訳(メタデータ) (2023-03-20T14:49:03Z) - Towards Practicality of Sketch-Based Visual Understanding [15.30818342202786]
スケッチは、先史時代から視覚的な物体を概念化し、描写するために用いられてきた。
この論文は、スケッチに基づく視覚的理解をより実践的に進めることを目的としている。
論文 参考訳(メタデータ) (2022-10-27T03:12:57Z) - Creative Sketch Generation [48.16835161875747]
クリエイティブなスケッチのデータセットであるCreative BirdsとCreative Creaturesの2つを紹介します。
DoodlerGAN (Generative Adrial Network, GAN) を提案する。
人間の研究と同様に定量的評価は、我々のアプローチによって生成されたスケッチは、既存のアプローチよりも創造的で高品質であることを示している。
論文 参考訳(メタデータ) (2020-11-19T18:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。