論文の概要: DTSGAN: Learning Dynamic Textures via Spatiotemporal Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2412.16948v1
- Date: Sun, 22 Dec 2024 09:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:42:48.19179
- Title: DTSGAN: Learning Dynamic Textures via Spatiotemporal Generative Adversarial Network
- Title(参考訳): DTSGAN:時空間生成対向ネットワークによる動的テクスチャ学習
- Authors: Xiangtian Li, Xiaobo Wang, Zhen Qi, Han Cao, Zhaoyang Zhang, Ao Xiang,
- Abstract要約: 一つの動的テクスチャから学習できる時間生成逆映像ネットワーク(DTSGAN)を導入する。
DTSGANのパイプラインでは、粗いスケールから最も細かいスケールまで、新しいビデオシーケンスが生成される。
- 参考スコア(独自算出の注目度): 11.511407106519245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic texture synthesis aims to generate sequences that are visually similar to a reference video texture and exhibit specific stationary properties in time. In this paper, we introduce a spatiotemporal generative adversarial network (DTSGAN) that can learn from a single dynamic texture by capturing its motion and content distribution. With the pipeline of DTSGAN, a new video sequence is generated from the coarsest scale to the finest one. To avoid mode collapse, we propose a novel strategy for data updates that helps improve the diversity of generated results. Qualitative and quantitative experiments show that our model is able to generate high quality dynamic textures and natural motion.
- Abstract(参考訳): 動的テクスチャ合成は、参照ビデオテクスチャと視覚的に類似したシーケンスを生成し、時間内に特定の静止特性を示すことを目的としている。
本稿では,その動きと内容の分布を捉えることで,単一の動的テクスチャから学習可能な時空間生成対向ネットワーク(DTSGAN)を提案する。
DTSGANのパイプラインでは、最も粗いスケールから最も細かいスケールまで、新しいビデオシーケンスが生成される。
モード崩壊を避けるため,データ更新のための新しい手法を提案する。
定性的かつ定量的な実験により、我々のモデルは高品質な動的テクスチャと自然な動きを生成できることが示されている。
関連論文リスト
- VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - Texture Image Synthesis Using Spatial GAN Based on Vision Transformers [1.6482333106552793]
本研究では,視覚変換器(ViT)と空間生成支援ネットワーク(SGAN)を融合した新しいハイブリッドモデルViT-SGANを提案する。
平均分散(mu, sigma)やテクソンなどの特殊テクスチャ記述子をViTの自己保持機構に組み込むことで, 優れたテクスチャ合成を実現する。
論文 参考訳(メタデータ) (2025-02-03T21:39:30Z) - 4Dynamic: Text-to-4D Generation with Hybrid Priors [56.918589589853184]
本稿では,ビデオによる直接監督によって動的振幅と信頼性を保証し,テキストから4Dへ変換する新しい手法を提案する。
本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。
論文 参考訳(メタデータ) (2024-07-17T16:02:55Z) - Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis [31.90503003079933]
我々は、ニューラルネットワークによる明示的な動的メッシュをエンコードする新しいハイブリッド表現であるDynamic Tetrahedra(DynTet)を紹介する。
以前の研究と比較すると、DynTetは様々なメトリクスに従って忠実さ、唇の同期、リアルタイムのパフォーマンスを著しく改善している。
論文 参考訳(メタデータ) (2024-02-27T09:56:15Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - Dynamic Texture Synthesis by Incorporating Long-range Spatial and
Temporal Correlations [27.247382497265214]
我々は、参照テクスチャビデオの構造的および長距離相関を捉えるために、Shifted Gram lossと呼ばれる新しい損失項を導入する。
また,複数フレーム間の長周期動作を利用したフレームサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2021-04-13T05:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。