論文の概要: GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation
(works for videos too!)
- arxiv url: http://arxiv.org/abs/2106.06561v1
- Date: Fri, 11 Jun 2021 18:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:17:57.640246
- Title: GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation
(works for videos too!)
- Title(参考訳): gans n' roses: 安定し、制御可能で、多様な画像から画像への翻訳(ビデオにも使える!
- Authors: Min Jin Chong, David Forsyth
- Abstract要約: 顔画像から抽出したコンテンツコードと、ランダムに選択されたスタイルコードからアニメ画像へ、マップを学習する方法を示す。
文体や内容の単純かつ効果的な定義から敵意の喪失を導出する。
コンテンツとスタイルの形式化によって、ビデオのトレーニングをすることなくビデオ翻訳を実行できることを示す。
- 参考スコア(独自算出の注目度): 6.019182604573027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show how to learn a map that takes a content code, derived from a face
image, and a randomly chosen style code to an anime image. We derive an
adversarial loss from our simple and effective definitions of style and
content. This adversarial loss guarantees the map is diverse -- a very wide
range of anime can be produced from a single content code. Under plausible
assumptions, the map is not just diverse, but also correctly represents the
probability of an anime, conditioned on an input face. In contrast, current
multimodal generation procedures cannot capture the complex styles that appear
in anime. Extensive quantitative experiments support the idea the map is
correct. Extensive qualitative results show that the method can generate a much
more diverse range of styles than SOTA comparisons. Finally, we show that our
formalization of content and style allows us to perform video to video
translation without ever training on videos.
- Abstract(参考訳): 顔画像から抽出したコンテンツコードと、ランダムに選択されたスタイルコードからアニメ画像へ、マップを学習する方法を示す。
私たちは、スタイルとコンテンツの単純で効果的な定義から敵対的損失を導き出します。
この敵対的損失は、マップが多様であることを保証する -- 単一のコンテンツコードから非常に広い範囲のアニメを作成できる。
妥当な仮定の下では、マップは単に多様であるだけでなく、入力面上で条件付けられたアニメの確率を正しく表現している。
対照的に、現在のマルチモーダル生成手順はアニメに現れる複雑なスタイルを捉えることはできない。
広範な定量的実験は、地図が正しいという考えを支持する。
大規模な定性的な結果から,SOTA比較よりも多種多様なスタイルを生成できることが示唆された。
最後に、コンテンツとスタイルの形式化によって、ビデオのトレーニングをすることなくビデオ翻訳を実行できることを示す。
関連論文リスト
- Few-shot Image Generation via Style Adaptation and Content Preservation [60.08988307934977]
我々は、GAN転送に画像翻訳モジュールを導入し、モジュールはジェネレータにスタイルとコンテンツを分離するように教える。
我々の手法はショット設定がほとんどない状態で、常に最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-11-30T01:16:53Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - Scenimefy: Learning to Craft Anime Scene via Semi-Supervised
Image-to-Image Translation [75.91455714614966]
そこで我々は,新しい半教師付き画像-画像間翻訳フレームワークであるScenimefyを提案する。
提案手法は,構造に一貫性のある擬似ペアデータによる学習を導く。
スタイル化と細部を改善するために、パッチワイドのコントラストスタイルロスが導入されている。
論文 参考訳(メタデータ) (2023-08-24T17:59:50Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - Few-shot Image Generation Using Discrete Content Representation [27.570773346794613]
画像変換は、イメージをスタイルベクターとコンテンツマップに切り離す。
連続コンテンツマップを離散コンテンツマップに量子化することで、局所コンテンツベクトルのコンパクト辞書を学習する。
本モデルでは, 従来の手法に比べて, 未確認カテゴリに対して, 多様性と忠実度の高い画像を生成することができる。
論文 参考訳(メタデータ) (2022-07-22T01:22:03Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - DAF:re: A Challenging, Crowd-Sourced, Large-Scale, Long-Tailed Dataset
For Anime Character Recognition [15.120571134807186]
3000以上のクラスに500K近い画像が散在する大規模でクラウドソーシングされた長尾データセットを紹介します。
CNNベースのResNetsやViT(Self-attention based Vision Transformer)など、様々な分類モデルを用いてDAF:reおよび類似データセットの実験を行います。
私たちの結果は、実質的に異なるドメインデータセット上のViTモデルの一般化および転送学習特性に関する新しい洞察を与えます。
論文 参考訳(メタデータ) (2021-01-21T15:40:45Z) - PREGAN: Pose Randomization and Estimation for Weakly Paired Image Style
Translation [11.623477199795037]
本稿では2つの画像のコンテンツがポーズの誤りと一致しているスタイル翻訳のための弱いペアリング設定を提案する。
PreGANは、シミュレーションデータと実世界の収集データの両方で検証され、有効性を示す。
論文 参考訳(メタデータ) (2020-10-31T16:11:11Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。