論文の概要: SVS-GAN: Leveraging GANs for Semantic Video Synthesis
- arxiv url: http://arxiv.org/abs/2409.06074v1
- Date: Mon, 9 Sep 2024 21:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:40:45.198612
- Title: SVS-GAN: Leveraging GANs for Semantic Video Synthesis
- Title(参考訳): SVS-GAN: セマンティックビデオ合成のためのGANの活用
- Authors: Khaled M. Seyam, Julian Wiederer, Markus Braun, Bin Yang,
- Abstract要約: 本稿では,セマンティック画像合成(SIS)翻訳に特化して設計されたSVGANを紹介する。
提案手法は画像識別器のための3つのピラミドネットワークを含み,損失に対してセマンティックセグメンテーションを行う。
我々のフレームワークは、KITTI-360上のCity-of-thescapesartモデルのようなデータセット上で、現在の最先端モデルを上回ることを目的としている。
- 参考スコア(独自算出の注目度): 3.4620082575697455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been a growing interest in Semantic Image Synthesis (SIS) through the use of Generative Adversarial Networks (GANs) and diffusion models. This field has seen innovations such as the implementation of specialized loss functions tailored for this task, diverging from the more general approaches in Image-to-Image (I2I) translation. While the concept of Semantic Video Synthesis (SVS)$\unicode{x2013}$the generation of temporally coherent, realistic sequences of images from semantic maps$\unicode{x2013}$is newly formalized in this paper, some existing methods have already explored aspects of this field. Most of these approaches rely on generic loss functions designed for video-to-video translation or require additional data to achieve temporal coherence. In this paper, we introduce the SVS-GAN, a framework specifically designed for SVS, featuring a custom architecture and loss functions. Our approach includes a triple-pyramid generator that utilizes SPADE blocks. Additionally, we employ a U-Net-based network for the image discriminator, which performs semantic segmentation for the OASIS loss. Through this combination of tailored architecture and objective engineering, our framework aims to bridge the existing gap between SIS and SVS, outperforming current state-of-the-art models on datasets like Cityscapes and KITTI-360.
- Abstract(参考訳): 近年,GAN(Generative Adversarial Networks)と拡散モデルを用いることで,セマンティック画像合成(SIS)への関心が高まっている。
この分野では、このタスクに適した特殊な損失関数の実装や、イメージ・ツー・イメージ(I2I)翻訳のより一般的なアプローチから逸脱するといった革新が見られた。
セマンティックビデオ合成(SVS)$\unicode{x2013}$the generation of temporally coherent, realial sequences from semantic map$\unicode{x2013}$is new formalized in this paper,
これらのアプローチの多くは、ビデオ間翻訳のために設計された一般的な損失関数に依存するか、時間的コヒーレンスを達成するために追加のデータを必要とする。
本稿では,SVS用に特別に設計されたフレームワークであるSVS-GANについて紹介する。
提案手法は,SPADEブロックを利用した三重ピラミドジェネレータを含む。
さらに,OASIS損失に対するセマンティックセマンティックセグメンテーションを行う画像識別器に,U-Netベースのネットワークを用いる。
このアーキテクチャと客観的エンジニアリングの組み合わせにより、私たちのフレームワークは、SISとSVSの既存のギャップを埋めることを目的としており、CityscapesやKITTI-360のようなデータセット上で現在の最先端モデルよりも優れている。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Intra- & Extra-Source Exemplar-Based Style Synthesis for Improved Domain
Generalization [21.591831983223997]
セマンティックセグメンテーションにおけるドメインの一般化を改善するために,先進的なスタイル合成パイプラインを提案する。
提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。
データシフトの種類によって、ドライブシーンセマンティックセマンティックセグメンテーションの最大12.4%のmIoU改善を実現しています。
論文 参考訳(メタデータ) (2023-07-02T19:56:43Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Scale-Semantic Joint Decoupling Network for Image-text Retrieval in
Remote Sensing [23.598273691455503]
リモートセンシング画像テキスト検索のためのSJDN(Scale-Semantic Joint Decoupling Network)を提案する。
提案するSSJDNは,4つのベンチマークリモートセンシングデータセットを用いて行った数値実験において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-12T08:02:35Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z) - Improving Augmentation and Evaluation Schemes for Semantic Image
Synthesis [16.097324852253912]
本稿では,GAN(Generative Adversarial Network)に特化して設計された新しい拡張方式を提案する。
本稿では,ジェネレータへの入力として使用するセマンティックラベルマップのオブジェクト形状をランダムにワープする。
ワープされたラベルマップと非ワープされたラベルマップと画像の間の局所的な形状の相違により、GANはシーンの構造的および幾何学的詳細をよりよく学習することができる。
論文 参考訳(メタデータ) (2020-11-25T10:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。