論文の概要: Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints
- arxiv url: http://arxiv.org/abs/2411.19381v1
- Date: Thu, 28 Nov 2024 21:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:04.449943
- Title: Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints
- Title(参考訳): スケッチアニメーションの強化:時間的一貫性と剛性制約を伴うテキスト・ビデオ拡散モデル
- Authors: Gaurav Rai, Ojaswa Sharma,
- Abstract要約: 本稿では,記述的テキストプロンプトに基づいて与えられた入力スケッチをアニメーションする手法を提案する。
スケッチのストロークの動きを誘導するために、SDS損失を伴う事前訓練されたテキスト・ビデオ拡散モデルを利用する。
本手法は, 定量評価と定性評価の両方において, 最先端性能を上回っている。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License:
- Abstract: Animating hand-drawn sketches using traditional tools is challenging and complex. Sketches provide a visual basis for explanations, and animating these sketches offers an experience of real-time scenarios. We propose an approach for animating a given input sketch based on a descriptive text prompt. Our method utilizes a parametric representation of the sketch's strokes. Unlike previous methods, which struggle to estimate smooth and accurate motion and often fail to preserve the sketch's topology, we leverage a pre-trained text-to-video diffusion model with SDS loss to guide the motion of the sketch's strokes. We introduce length-area (LA) regularization to ensure temporal consistency by accurately estimating the smooth displacement of control points across the frame sequence. Additionally, to preserve shape and avoid topology changes, we apply a shape-preserving As-Rigid-As-Possible (ARAP) loss to maintain sketch rigidity. Our method surpasses state-of-the-art performance in both quantitative and qualitative evaluations.
- Abstract(参考訳): 従来のツールを使って手描きのスケッチをアニメーションするのは難しく、複雑です。
Sketchesは説明のためのビジュアルベースを提供し、これらのスケッチをアニメーションすることで、リアルタイムシナリオの経験を提供する。
本稿では,記述的テキストプロンプトに基づいて与えられた入力スケッチをアニメーションする手法を提案する。
本手法はスケッチのストロークのパラメトリック表現を利用する。
スケッチのトポロジの保存に苦しむ従来の手法とは異なり,SDSの損失を伴って事前学習したテキスト・ビデオ拡散モデルを用いてスケッチのストロークの動きを導出する。
フレーム列間の制御点のスムーズな変位を正確に推定し,時間的整合性を確保するために,長さ領域(LA)正則化を導入する。
さらに,形状の保存とトポロジ変化の回避のために,スケッチ剛性を維持するために形状保存型As-Rigid-As-Possible (ARAP)損失を適用した。
本手法は, 定量評価と定性評価の両方において, 最先端性能を上回っている。
関連論文リスト
- SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - VidSketch: Hand-drawn Sketch-Driven Video Generation with Diffusion Control [13.320911720001277]
VidSketchは、手書きのスケッチや簡単なテキストプロンプトから直接高品質のビデオアニメーションを生成する方法である。
具体的には,スケッチの指導力を自動的に調整するレベルベーススケッチ制御方式を提案する。
TempSpatial Attentionメカニズムは、生成されたビデオアニメーションの一貫性を高めるように設計されている。
論文 参考訳(メタデータ) (2025-02-03T06:45:00Z) - Sketch-Guided Motion Diffusion for Stylized Cinemagraph Synthesis [15.988686454889823]
Sketch2Cinemagraphは、フリーハンドスケッチからスタイリングされたシネマグラフの条件付き生成を可能にするスケッチ誘導フレームワークである。
生成した景観画像の流動領域における運動場を推定する新しい潜在運動拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-12-01T01:32:59Z) - VIRES: Video Instance Repainting with Sketch and Text Guidance [46.24384664227624]
スケッチとテキストガイダンスを備えたビデオインスタンス再描画手法であるVIRESを紹介する。
既存のアプローチは、提供されたスケッチシーケンスと時間的一貫性と正確なアライメントに苦慮している。
本稿では,自己スケーリングを標準化したSequential ControlNetを提案する。
スケッチ対応エンコーダは、再塗装された結果が提供されるスケッチシーケンスに一致していることを保証する。
論文 参考訳(メタデータ) (2024-11-25T08:55:41Z) - FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations [65.64014682930164]
スケッチアニメーションは、単純なフリップブックの落書きからプロのスタジオプロダクションまで、ビジュアルなストーリーテリングのための強力な媒体を提供する。
FlipSketchは、フリップブックアニメーションの魔法を復活させるシステムです。
論文 参考訳(メタデータ) (2024-11-16T14:53:03Z) - Sketch Video Synthesis [52.134906766625164]
フレームワイドB'ezier曲線で表現されたビデオのスケッチを行うための新しいフレームワークを提案する。
本手法は、スケッチベースのビデオ編集やビデオ合成によるビデオ再生における応用を解放する。
論文 参考訳(メタデータ) (2023-11-26T14:14:04Z) - Breathing Life Into Sketches Using Text-to-Video Priors [101.8236605955899]
スケッチは、人間が自分のアイデアを視覚的に伝えるために使う最も直感的で汎用性の高いツールの1つです。
本研究では,単一オブジェクトのスケッチに動きを自動的に付加する手法を提案する。
出力はベクトル表現で提供される短いアニメーションで、簡単に編集できる。
論文 参考訳(メタデータ) (2023-11-21T18:09:30Z) - Bridging the Gap: Sketch-Aware Interpolation Network for High-Quality Animation Sketch Inbetweening [58.09847349781176]
我々は,新しい深層学習手法であるSketch-Aware Interpolation Network (SAIN)を提案する。
このアプローチには、領域レベルの対応、ストロークレベルの対応、ピクセルレベルのダイナミクスを定式化するマルチレベルガイダンスが組み込まれている。
マルチストリームのU-Transformerは、自己/クロスアテンション機構の統合により、これらのマルチレベルガイドを使用して、スケッチ間のインテンションパターンを特徴付けるように設計されている。
論文 参考訳(メタデータ) (2023-08-25T09:51:03Z) - SketchFFusion: Sketch-guided image editing with diffusion model [25.63913085329606]
スケッチ誘導画像編集は、ユーザが提供するスケッチ情報に基づいて、画像の局所的な微調整を実現することを目的としている。
本稿では,画像の主輪郭を保存し,実際のスケッチスタイルに忠実に適合するスケッチ生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T15:54:18Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。