論文の概要: VIRES: Video Instance Repainting with Sketch and Text Guidance
- arxiv url: http://arxiv.org/abs/2411.16199v2
- Date: Tue, 26 Nov 2024 11:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:49.793983
- Title: VIRES: Video Instance Repainting with Sketch and Text Guidance
- Title(参考訳): VIRES: スケッチとテキストガイダンスによるビデオインスタンスのリペイント
- Authors: Shuchen Weng, Haojie Zheng, Peixuan Zhan, Yuchen Hong, Han Jiang, Si Li, Boxin Shi,
- Abstract要約: スケッチとテキストガイダンスを備えたビデオインスタンス再描画手法であるVIRESを紹介する。
既存のアプローチは、提供されたスケッチシーケンスと時間的一貫性と正確なアライメントに苦慮している。
本稿では,自己スケーリングを標準化したSequential ControlNetを提案する。
スケッチ対応エンコーダは、再塗装された結果が提供されるスケッチシーケンスに一致していることを保証する。
- 参考スコア(独自算出の注目度): 46.24384664227624
- License:
- Abstract: We introduce VIRES, a video instance repainting method with sketch and text guidance, enabling video instance repainting, replacement, generation, and removal. Existing approaches struggle with temporal consistency and accurate alignment with the provided sketch sequence. VIRES leverages the generative priors of text-to-video models to maintain temporal consistency and produce visually pleasing results. We propose the Sequential ControlNet with the standardized self-scaling, which effectively extracts structure layouts and adaptively captures high-contrast sketch details. We further augment the diffusion transformer backbone with the sketch attention to interpret and inject fine-grained sketch semantics. A sketch-aware encoder ensures that repainted results are aligned with the provided sketch sequence. Additionally, we contribute the VireSet, a dataset with detailed annotations tailored for training and evaluating video instance editing methods. Experimental results demonstrate the effectiveness of VIRES, which outperforms state-of-the-art methods in visual quality, temporal consistency, condition alignment, and human ratings. Project page:https://suimuc.github.io/suimu.github.io/projects/VIRES/
- Abstract(参考訳): 我々は、スケッチとテキストガイダンスを備えたビデオインスタンス再描画手法であるVIRESを導入し、ビデオインスタンス再描画、置換、生成、削除を可能にした。
既存のアプローチは、提供されたスケッチシーケンスと時間的一貫性と正確なアライメントに苦慮している。
VIRESは、テキストからビデオへのモデルの生成に先立って、時間的一貫性を維持し、視覚的に喜ばしい結果を生み出す。
本稿では、構造レイアウトを効果的に抽出し、高コントラストスケッチの詳細を適応的にキャプチャする自己スケーリングを標準化したSequential ControlNetを提案する。
さらに、スケッチ注意で拡散トランスフォーマーのバックボーンを拡大して、微粒なスケッチセマンティクスを解釈し、注入する。
スケッチ対応エンコーダは、再塗装された結果が提供されるスケッチシーケンスに一致していることを保証する。
さらに、ビデオインスタンス編集方法のトレーニングと評価に適した詳細なアノテーションを備えたデータセットであるVireSetをコントリビュートする。
実験の結果,視覚的品質,時間的整合性,条件整合性,人格評価において,最先端の手法よりも優れたVIRESの有効性が示された。
プロジェクトページ:https://suimuc.github.io/suimu.github.io/projects/VIRES/
関連論文リスト
- SketchTriplet: Self-Supervised Scenarized Sketch-Text-Image Triplet Generation [6.39528707908268]
シーンスケッチ用の大規模なペアデータセットは引き続き欠如している。
本稿では,既存のシーンスケッチに依存しないシーンスケッチ生成のための自己教師型手法を提案する。
シーンスケッチを中心にした大規模なデータセットをコントリビュートし、セマンティックに一貫した「テキスト・スケッチ・イメージ」三つ子を含む。
論文 参考訳(メタデータ) (2024-05-29T06:43:49Z) - Sketch Video Synthesis [52.134906766625164]
フレームワイドB'ezier曲線で表現されたビデオのスケッチを行うための新しいフレームワークを提案する。
本手法は、スケッチベースのビデオ編集やビデオ合成によるビデオ再生における応用を解放する。
論文 参考訳(メタデータ) (2023-11-26T14:14:04Z) - Breathing Life Into Sketches Using Text-to-Video Priors [101.8236605955899]
スケッチは、人間が自分のアイデアを視覚的に伝えるために使う最も直感的で汎用性の高いツールの1つです。
本研究では,単一オブジェクトのスケッチに動きを自動的に付加する手法を提案する。
出力はベクトル表現で提供される短いアニメーションで、簡単に編集できる。
論文 参考訳(メタデータ) (2023-11-21T18:09:30Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Abstracting Sketches through Simple Primitives [53.04827416243121]
人間は、オブジェクト情報を素早く通信する必要があるゲームにおいて、高いレベルの抽象化能力を示す。
本稿では,プリミティブをベースとしたスケッチ抽象化タスクを提案する。
我々のPrimitive-Matching Network(PMN)は、スケッチの解釈可能な抽象化を自己管理的に学習する。
論文 参考訳(メタデータ) (2022-07-27T14:32:39Z) - Sketch Me A Video [32.38205496481408]
本稿では、2つの粗悪なドーンスケッチを入力としてのみ使用して、リアルなポートレートビデオを作成することで、新しいビデオ合成タスクを提案する。
2段階のSketch-to-Videoモデルが提案されている。
論文 参考訳(メタデータ) (2021-10-10T05:40:11Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。