論文の概要: Two Birds, One Stone: A Unified Framework for Joint Learning of Image
and Video Style Transfers
- arxiv url: http://arxiv.org/abs/2304.11335v2
- Date: Sat, 2 Sep 2023 02:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 05:34:03.341967
- Title: Two Birds, One Stone: A Unified Framework for Joint Learning of Image
and Video Style Transfers
- Title(参考訳): two birds, one stone: an unified framework for joint learning of image and video style transfers
- Authors: Bohai Gu, Heng Fan, Libo Zhang
- Abstract要約: 現在の任意のスタイル転送モデルは、画像ドメインまたはビデオドメインに限られている。
画像とビデオの両方のための統一スタイル転送フレームワークUniSTを紹介する。
両タスクの最先端アプローチに対して,UniSTが好適に動作することを示す。
- 参考スコア(独自算出の注目度): 14.057935237805982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current arbitrary style transfer models are limited to either image or video
domains. In order to achieve satisfying image and video style transfers, two
different models are inevitably required with separate training processes on
image and video domains, respectively. In this paper, we show that this can be
precluded by introducing UniST, a Unified Style Transfer framework for both
images and videos. At the core of UniST is a domain interaction transformer
(DIT), which first explores context information within the specific domain and
then interacts contextualized domain information for joint learning. In
particular, DIT enables exploration of temporal information from videos for the
image style transfer task and meanwhile allows rich appearance texture from
images for video style transfer, thus leading to mutual benefits. Considering
heavy computation of traditional multi-head self-attention, we present a simple
yet effective axial multi-head self-attention (AMSA) for DIT, which improves
computational efficiency while maintains style transfer performance. To verify
the effectiveness of UniST, we conduct extensive experiments on both image and
video style transfer tasks and show that UniST performs favorably against
state-of-the-art approaches on both tasks. Code is available at
https://github.com/NevSNev/UniST.
- Abstract(参考訳): 現在の任意のスタイル転送モデルは、画像ドメインまたはビデオドメインに限られている。
映像と映像の転送を満足させるためには,画像領域と映像領域の訓練プロセスがそれぞれ異なるため,必然的に2つの異なるモデルが必要となる。
本稿では,画像とビデオの両方を対象とした統一スタイル転送フレームワークUniSTを導入することで,これを回避できることを示す。
UniSTのコアとなるドメインインタラクショントランスフォーマー(DIT)は、まず特定のドメイン内のコンテキスト情報を探索し、その後、共同学習のためにコンテキスト化されたドメイン情報と対話する。
特に、DITは、画像スタイル転送タスクのためのビデオからの時間情報の探索を可能にし、一方、映像スタイル転送のための画像からのリッチな外観テクスチャを可能にし、相互に利益をもたらす。
従来のマルチヘッド自己アテンションの計算量を考慮すると,DITのための簡易かつ効果的な軸方向多頭部自己アテンション(AMSA)が提案される。
本研究は,UniSTの有効性を検証するために,画像および映像スタイルの転送タスクについて広範な実験を行い,UniSTが両タスクの最先端アプローチに対して好適に動作することを示す。
コードはhttps://github.com/NevSNev/UniSTで入手できる。
関連論文リスト
- UniVST: A Unified Framework for Training-free Localized Video Style Transfer [66.69471376934034]
ローカライズドビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングは不要で、ビデオ全体にわたってスタイルを転送する既存の方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。
提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。
推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文 参考訳(メタデータ) (2024-08-29T16:58:10Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - ACE: Zero-Shot Image to Image Translation via Pretrained
Auto-Contrastive-Encoder [2.1874189959020427]
本研究では,同じデータ分布内のサンプルの類似点と相違点を学習し,画像の特徴を抽出する手法を提案する。
ACEの設計により、画像翻訳タスクのトレーニングを初めて行うことなく、ゼロショット画像から画像への変換を実現することができる。
本モデルは,ゼロショット学習を用いたマルチモーダル画像翻訳タスクにおける競合的な結果も達成する。
論文 参考訳(メタデータ) (2023-02-22T23:52:23Z) - Fine-Grained Image Style Transfer with Visual Transformers [59.85619519384446]
本稿では,コンテンツとスタイルイメージの両方を視覚トークンに分割し,よりきめ細かなスタイル変換を実現するSTTR(Style TRansformer)ネットワークを提案する。
STTRと既存のアプローチを比較するために,Amazon Mechanical Turkのユーザスタディを実施している。
論文 参考訳(メタデータ) (2022-10-11T06:26:00Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。