論文の概要: SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation
- arxiv url: http://arxiv.org/abs/2308.14191v1
- Date: Sun, 27 Aug 2023 19:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 16:15:44.897037
- Title: SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation
- Title(参考訳): SketchDreamer:インタラクティブテキスト強化クリエイティヴ・スケッチ・アイデア
- Authors: Zhiyu Qu and Tao Xiang and Yi-Zhe Song
- Abstract要約: 画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
- 参考スコア(独自算出の注目度): 111.2195741547517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence Generated Content (AIGC) has shown remarkable
progress in generating realistic images. However, in this paper, we take a step
"backward" and address AIGC for the most rudimentary visual modality of human
sketches. Our objective is on the creative nature of sketches, and that
creative sketching should take the form of an interactive process. We further
enable text to drive the sketch ideation process, allowing creativity to be
freely defined, while simultaneously tackling the challenge of "I can't
sketch". We present a method to generate controlled sketches using a
text-conditioned diffusion model trained on pixel representations of images.
Our proposed approach, referred to as SketchDreamer, integrates a
differentiable rasteriser of Bezier curves that optimises an initial input to
distil abstract semantic knowledge from a pretrained diffusion model. We
utilise Score Distillation Sampling to learn a sketch that aligns with a given
caption, which importantly enable both text and sketch to interact with the
ideation process. Our objective is to empower non-professional users to create
sketches and, through a series of optimisation processes, transform a narrative
into a storyboard by expanding the text prompt while making minor adjustments
to the sketch input. Through this work, we hope to aspire the way we create
visual content, democratise the creative process, and inspire further research
in enhancing human creativity in AIGC. The code is available at
\url{https://github.com/WinKawaks/SketchDreamer}.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)は、現実的な画像の生成において顕著な進歩を見せている。
しかし,本論文では,人間のスケッチの最も初歩的な視覚的モダリティに対して,AIGCを「後方」に進める。
私たちの目標はスケッチの創造性であり、創造的なスケッチはインタラクティブなプロセスの形をとるべきです。
さらに,テキストがスケッチのイデオレーションプロセスを駆動し,クリエイティビティを自由に定義できると同時に,同時に「私はスケッチできない」という課題にも取り組みます。
本稿では,画像の画素表現を学習したテキスト条件拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
提案手法はsketchdreamerと呼ばれ,初期入力を最適化したベジエ曲線の微分可能なラステリザを統合し,事前学習した拡散モデルから抽象的意味知識を分離する。
スコア蒸留サンプリングを利用して、与えられたキャプションに合致したスケッチを学習し、テキストとスケッチの両方がイデオレーションプロセスと相互作用できるようにする。
我々の目的は,非専門的ユーザに対してスケッチ作成の権限を与え,一連の最適化プロセスを通じて,スケッチ入力を微調整しながらテキストプロンプトを拡張して物語をストーリーボードに変換することである。
この作業を通じて、視覚的コンテンツを創造し、創造的プロセスを民主化し、AIGCにおける人間の創造性を高めるためのさらなる研究を促したいと考えています。
コードは \url{https://github.com/winkawaks/sketchdreamer} で入手できる。
関連論文リスト
- SketchAgent: Language-Driven Sequential Sketch Generation [34.96339247291013]
SketchAgentは言語駆動でシーケンシャルなスケッチ生成方法である。
テキスト内例を通してモデルに導入した直感的なスケッチ言語を提案する。
脳卒中をストロークで描くことで、スケッチに固有の進化的でダイナミックな性質を捉えます。
論文 参考訳(メタデータ) (2024-11-26T18:32:06Z) - It's All About Your Sketch: Democratising Sketch Control in Diffusion Models [114.73766136068357]
本稿では,拡散モデルにおけるスケッチの可能性を明らかにするとともに,生成型AIにおける直接スケッチ制御の詐欺的可能性に対処する。
私たちはこのプロセスを民主化し、アマチュアのスケッチが正確なイメージを生成できるようにします。
論文 参考訳(メタデータ) (2024-03-12T01:05:25Z) - DiffSketching: Sketch Control Image Synthesis with Diffusion Models [10.172753521953386]
スケッチ・ツー・イメージ合成のためのディープラーニングモデルは、視覚的な詳細なしに歪んだ入力スケッチを克服する必要がある。
我々のモデルは、クロスドメイン制約を通じてスケッチにマッチし、画像合成をより正確に導くために分類器を使用する。
我々のモデルは、生成品質と人的評価の点でGANベースの手法に勝ることができ、大規模なスケッチ画像データセットに依存しない。
論文 参考訳(メタデータ) (2023-05-30T07:59:23Z) - Picture that Sketch: Photorealistic Image Generation from Abstract
Sketches [109.69076457732632]
この論文は、あなたや私のような訓練を受けていないアマチュアの抽象的で変形した普通のスケッチから、それをフォトリアリスティックなイメージに変えます。
まず、エッジマップのようなスケッチを指示するのではなく、抽象的なフリーハンドな人間のスケッチで作業することを目指しています。
そうすることで、スケッチから写真までのパイプラインを民主化し、スケッチがどれだけよいかに関わらず、スケッチを"写真化"します。
論文 参考訳(メタデータ) (2023-03-20T14:49:03Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - DoodleFormer: Creative Sketch Drawing with Transformers [68.18953603715514]
創造的スケッチ(Creative sketching)またはドゥーリング(Duodling)は、日常の視覚的物体の想像的かつ以前は目に見えない描写が描かれた表現的活動である。
本稿では,クリエイティビティスケッチ生成問題を粗いスケッチ合成に分解する,粗い2段階のフレームワークDoodleFormerを提案する。
生成した創作スケッチの多様性を確保するため,確率論的粗いスケッチデコーダを導入する。
論文 参考訳(メタデータ) (2021-12-06T18:59:59Z) - Creative Sketch Generation [48.16835161875747]
クリエイティブなスケッチのデータセットであるCreative BirdsとCreative Creaturesの2つを紹介します。
DoodlerGAN (Generative Adrial Network, GAN) を提案する。
人間の研究と同様に定量的評価は、我々のアプローチによって生成されたスケッチは、既存のアプローチよりも創造的で高品質であることを示している。
論文 参考訳(メタデータ) (2020-11-19T18:57:00Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。