論文の概要: WAIT: Feature Warping for Animation to Illustration video Translation
using GANs
- arxiv url: http://arxiv.org/abs/2310.04901v1
- Date: Sat, 7 Oct 2023 19:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 14:36:37.161643
- Title: WAIT: Feature Warping for Animation to Illustration video Translation
using GANs
- Title(参考訳): WAIT:GANを用いたアニメ映像翻訳のための特徴ワープ
- Authors: Samet Hicsonmez, Nermin Samet, Fidan Samet, Oguz Bakir, Emre Akbas,
Pinar Duygulu
- Abstract要約: ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
- 参考スコア(独自算出の注目度): 12.681919619814419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore a new domain for video-to-video translation.
Motivated by the availability of animation movies that are adopted from
illustrated books for children, we aim to stylize these videos with the style
of the original illustrations. Current state-of-the-art video-to-video
translation models rely on having a video sequence or a single style image to
stylize an input video. We introduce a new problem for video stylizing where an
unordered set of images are used. This is a challenging task for two reasons:
i) we do not have the advantage of temporal consistency as in video sequences;
ii) it is more difficult to obtain consistent styles for video frames from a
set of unordered images compared to using a single image.
Most of the video-to-video translation methods are built on an image-to-image
translation model, and integrate additional networks such as optical flow, or
temporal predictors to capture temporal relations. These additional networks
make the model training and inference complicated and slow down the process. To
ensure temporal coherency in video-to-video style transfer, we propose a new
generator network with feature warping layers which overcomes the limitations
of the previous methods. We show the effectiveness of our method on three
datasets both qualitatively and quantitatively. Code and pretrained models are
available at https://github.com/giddyyupp/wait.
- Abstract(参考訳): 本稿では,ビデオ間翻訳の新しい領域について検討する。
絵本から子供向けのアニメーション映画が利用可能であることに動機づけられ,これらの動画をオリジナルイラストのスタイルでスタイリッシュすることを目指している。
現在の最先端のビデオ翻訳モデルは、入力されたビデオをスタイリングするために、ビデオシーケンスまたは単一のスタイルのイメージを持つことに依存している。
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
これは2つの理由から難しい課題です
一 ビデオのシーケンスのように時間的一貫性の利点がないこと。
二 単一の画像を用いた場合に比べて、無順序画像の集合から映像フレームの一貫したスタイルを得るのがより困難である。
ビデオ間翻訳のほとんどは画像間翻訳モデルに基づいて構築されており、時間的関係を捉えるために光学フローや時間的予測器などの追加ネットワークを統合している。
これらの追加ネットワークにより、モデルトレーニングと推論が複雑になり、プロセスが遅くなります。
ビデオ間通信における時間的コヒーレンシを確保するため,従来手法の限界を克服した特徴変形層を有する新しいジェネレータネットワークを提案する。
本手法は,質的および定量的に3つのデータセット上で有効性を示す。
コードと事前トレーニングされたモデルはhttps://github.com/giddyyupp/waitで入手できる。
関連論文リスト
- AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。
実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-18T17:24:28Z) - LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。
忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文 参考訳(メタデータ) (2024-04-14T07:36:18Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - Learning Long-Term Style-Preserving Blind Video Temporal Consistency [6.6908747077585105]
本論文では, 映像に適用される変換を, 繰り返しニューラルネットワークという形で後処理モデルを提案する。
我々のモデルは、最近GANビデオ生成のために導入されたPing Pongプロシージャとそれに対応する損失を用いて訓練されている。
DAVISとvidevo.netデータセットのモデルを評価し、フリック除去に関する最先端の結果を提供することを示す。
論文 参考訳(メタデータ) (2021-03-12T13:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。