論文の概要: VideoSketcher: Video Models Prior Enable Versatile Sequential Sketch Generation
- arxiv url: http://arxiv.org/abs/2602.15819v1
- Date: Tue, 17 Feb 2026 18:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.170805
- Title: VideoSketcher: Video Models Prior Enable Versatile Sequential Sketch Generation
- Title(参考訳): VideoSketcher: ビデオモデルでは、バーサリーなシークエンシャルなスケッチ生成が可能に
- Authors: Hui Ren, Yuval Alaluf, Omer Bar Tal, Alexander Schwing, Antonio Torralba, Yael Vinker,
- Abstract要約: ほとんどの生成モデルはスケッチを静的なイメージとして扱い、創造的な描画の根底にある時間構造を見渡す。
本稿では,事前学習したテキスト・ビデオ拡散モデルに適応した逐次スケッチ生成のためのデータ効率のよい手法を提案する。
本手法は,テキスト指定順序を忠実に追従する高品質なスケッチを生成するとともに,リッチな視覚的ディテールを示す。
- 参考スコア(独自算出の注目度): 73.23035143627598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sketching is inherently a sequential process, in which strokes are drawn in a meaningful order to explore and refine ideas. However, most generative models treat sketches as static images, overlooking the temporal structure that underlies creative drawing. We present a data-efficient approach for sequential sketch generation that adapts pretrained text-to-video diffusion models to generate sketching processes. Our key insight is that large language models and video diffusion models offer complementary strengths for this task: LLMs provide semantic planning and stroke ordering, while video diffusion models serve as strong renderers that produce high-quality, temporally coherent visuals. We leverage this by representing sketches as short videos in which strokes are progressively drawn on a blank canvas, guided by text-specified ordering instructions. We introduce a two-stage fine-tuning strategy that decouples the learning of stroke ordering from the learning of sketch appearance. Stroke ordering is learned using synthetic shape compositions with controlled temporal structure, while visual appearance is distilled from as few as seven manually authored sketching processes that capture both global drawing order and the continuous formation of individual strokes. Despite the extremely limited amount of human-drawn sketch data, our method generates high-quality sequential sketches that closely follow text-specified orderings while exhibiting rich visual detail. We further demonstrate the flexibility of our approach through extensions such as brush style conditioning and autoregressive sketch generation, enabling additional controllability and interactive, collaborative drawing.
- Abstract(参考訳): スケッチは本質的にはシーケンシャルなプロセスであり、ストロークはアイデアを探求し洗練するための意味のある順序で描かれる。
しかし、ほとんどの生成モデルはスケッチを静的なイメージとして扱い、創造的な描画の根底にある時間構造を見渡す。
本稿では,事前訓練されたテキスト・ビデオ拡散モデルに適応してスケッチ処理を生成する,逐次スケッチ生成のためのデータ効率のよい手法を提案する。
LLMはセマンティックプランニングとストロークオーダを提供し、ビデオ拡散モデルは高品質で時間的に整合したビジュアルを生成する強力なレンダラーとして機能する。
我々は、スケッチを短いビデオとして表現し、ストロークはテキスト指定の注文命令で導かれる空白のキャンバスに徐々に描画される。
スケッチの外観の学習からストローク順序の学習を分離する2段階の微調整戦略を導入する。
ストロークオーダリングは時間構造を制御した合成形状組成を用いて学習し、視覚的外観は、グローバルな描画順序と個々のストロークの連続的な形成の両方をキャプチャする7つの手作業によるスケッチプロセスから抽出される。
人間の描いたスケッチデータが非常に限られているにもかかわらず、本手法はテキスト特定注文を忠実に追従する高品質なシーケンシャルスケッチを生成するとともに、リッチな視覚的ディテールを示す。
さらに,ブラシスタイルのコンディショニングや自動回帰スケッチ生成などの拡張によるアプローチの柔軟性を示す。
関連論文リスト
- Loomis Painter: Reconstructing the Painting Process [56.713812157283805]
ステップバイステップの絵画チュートリアルは芸術的技法を学ぶのに不可欠であるが、既存のビデオリソースには対話性とパーソナライゼーションが欠如している。
セマンティクス駆動型スタイル制御機構を用いたマルチメディア描画プロセス生成のための統一的なフレームワークを提案する。
また、実際の絵画プロセスの大規模データセットを構築し、メディア間の整合性、時間的コヒーレンス、最終的なイメージの忠実性を評価する。
論文 参考訳(メタデータ) (2025-11-21T16:06:32Z) - SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - VidSketch: Hand-drawn Sketch-Driven Video Generation with Diffusion Control [13.320911720001277]
VidSketchは、手書きのスケッチや簡単なテキストプロンプトから直接高品質のビデオアニメーションを生成する方法である。
具体的には,スケッチの指導力を自動的に調整するレベルベーススケッチ制御方式を提案する。
TempSpatial Attentionメカニズムは、生成されたビデオアニメーションの一貫性を高めるように設計されている。
論文 参考訳(メタデータ) (2025-02-03T06:45:00Z) - VIRES: Video Instance Repainting via Sketch and Text Guided Generation [46.4323117976194]
VIRESは、スケッチとテキストガイダンスを備えたビデオインスタンス再描画方法である。
本稿では,自己スケーリングを標準化したSequential ControlNetを提案する。
スケッチ対応エンコーダは、再塗装された結果が提供されるスケッチシーケンスに一致していることを保証する。
論文 参考訳(メタデータ) (2024-11-25T08:55:41Z) - Sketch Video Synthesis [52.134906766625164]
フレームワイドB'ezier曲線で表現されたビデオのスケッチを行うための新しいフレームワークを提案する。
本手法は、スケッチベースのビデオ編集やビデオ合成によるビデオ再生における応用を解放する。
論文 参考訳(メタデータ) (2023-11-26T14:14:04Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。