論文の概要: Temporal Shift GAN for Large Scale Video Generation
- arxiv url: http://arxiv.org/abs/2004.01823v2
- Date: Tue, 10 Nov 2020 19:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 22:51:46.515429
- Title: Temporal Shift GAN for Large Scale Video Generation
- Title(参考訳): 大規模ビデオ生成のための時間シフトGAN
- Authors: Andres Munoz, Mohammadreza Zolfaghari, Max Argus and Thomas Brox
- Abstract要約: コストのかかる3Dアーキテクチャを使わずに時間的整合性を改善するビデオ生成のためのネットワークアーキテクチャを提案する。
このアプローチは、UCF-101データセットのスコアによって測定された、最先端の定量的パフォーマンスを実現する。
また、下流タスクを評価に用いる新しい定量的尺度(S3)も導入する。
- 参考スコア(独自算出の注目度): 40.02530904167841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models have become increasingly popular in the last few
years, however the standard 2D architectures used today lack natural
spatio-temporal modelling capabilities. In this paper, we present a network
architecture for video generation that models spatio-temporal consistency
without resorting to costly 3D architectures. The architecture facilitates
information exchange between neighboring time points, which improves the
temporal consistency of both the high level structure as well as the low-level
details of the generated frames. The approach achieves state-of-the-art
quantitative performance, as measured by the inception score on the UCF-101
dataset as well as better qualitative results. We also introduce a new
quantitative measure (S3) that uses downstream tasks for evaluation. Moreover,
we present a new multi-label dataset MaisToy, which enables us to evaluate the
generalization of the model.
- Abstract(参考訳): ビデオ生成モデルはここ数年で人気が高まっているが、現在の標準的な2Dアーキテクチャでは時空間の自然なモデリング機能が欠如している。
本稿では,コストのかかる3Dアーキテクチャを使わずに時空間一貫性をモデル化したビデオ生成のためのネットワークアーキテクチャを提案する。
このアーキテクチャは、隣接する時点間の情報交換を容易にし、高レベルの構造と生成されたフレームの低レベルの詳細の両方の時間的一貫性を向上させる。
このアプローチは、UCF-101データセットの開始スコアによって測定された、最先端の定量的パフォーマンスと質的な結果を達成する。
また,評価に下流タスクを使用する新しい量的尺度(s3)を提案する。
さらに、モデルの一般化を評価するために、新しいマルチラベルデータセットMaisToyを提案する。
関連論文リスト
- Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - A Generative Machine Learning Model for Material Microstructure 3D
Reconstruction and Performance Evaluation [4.169915659794567]
2次元から3次元への次元展開は、現在の技術的観点から非常に難しい逆問題と見なされている。
U-netのマルチスケール特性とGANの生成能力を統合する新しい生成モデルが提案されている。
さらに、画像正規化損失とワッサーシュタイン距離損失を組み合わせることにより、モデルの精度をさらに向上する。
論文 参考訳(メタデータ) (2024-02-24T13:42:34Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Mending of Spatio-Temporal Dependencies in Block Adjacency Matrix [3.529869282529924]
本稿では,時間的依存を考慮に入れた新たなエンドツーエンド学習アーキテクチャを提案する。
提案手法は,SurgVisDomやC2D2などのベンチマークデータセット上での優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-04T06:42:33Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。