論文の概要: CCVS: Context-aware Controllable Video Synthesis
- arxiv url: http://arxiv.org/abs/2107.08037v1
- Date: Fri, 16 Jul 2021 17:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:37:37.915034
- Title: CCVS: Context-aware Controllable Video Synthesis
- Title(参考訳): CCVS:コンテキスト対応制御可能なビデオ合成
- Authors: Guillaume Le Moing and Jean Ponce and Cordelia Schmid
- Abstract要約: プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
- 参考スコア(独自算出の注目度): 95.22008742695772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This presentation introduces a self-supervised learning approach to the
synthesis of new video clips from old ones, with several new key elements for
improved spatial resolution and realism: It conditions the synthesis process on
contextual information for temporal continuity and ancillary information for
fine control. The prediction model is doubly autoregressive, in the latent
space of an autoencoder for forecasting, and in image space for updating
contextual information, which is also used to enforce spatio-temporal
consistency through a learnable optical flow module. Adversarial training of
the autoencoder in the appearance and temporal domains is used to further
improve the realism of its output. A quantizer inserted between the encoder and
the transformer in charge of forecasting future frames in latent space (and its
inverse inserted between the transformer and the decoder) adds even more
flexibility by affording simple mechanisms for handling multimodal ancillary
information for controlling the synthesis process (eg, a few sample frames, an
audio track, a trajectory in image space) and taking into account the
intrinsically uncertain nature of the future by allowing multiple predictions.
Experiments with an implementation of the proposed approach give very good
qualitative and quantitative results on multiple tasks and standard benchmarks.
- Abstract(参考訳): 本発表では,時間的連続性に関する文脈的情報と微妙な制御のための補助的情報の合成過程を条件に,空間的解像度とリアリズムを改善するためのいくつかの重要な要素を含む,古いビデオクリップを合成するための自己教師付き学習手法を紹介する。
予測モデルは、予測のためのオートエンコーダの潜時空間と、学習可能な光フローモジュールを通して時空間一貫性を強制するためにも用いられる文脈情報を更新するための画像空間において、二重自己回帰的である。
オートエンコーダの外観及び時間領域における適応的訓練は、その出力のリアリズムをさらに改善するために使用される。
A quantizer inserted between the encoder and the transformer in charge of forecasting future frames in latent space (and its inverse inserted between the transformer and the decoder) adds even more flexibility by affording simple mechanisms for handling multimodal ancillary information for controlling the synthesis process (eg, a few sample frames, an audio track, a trajectory in image space) and taking into account the intrinsically uncertain nature of the future by allowing multiple predictions.
提案手法の実装による実験は、複数のタスクと標準ベンチマークに対して非常に質的で定量的な結果を与える。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Unsupervised Multi-modal Feature Alignment for Time Series
Representation Learning [20.655943795843037]
異なるモダリティから符号化された時系列表現の整合と結合に焦点を当てた革新的なアプローチを導入する。
複数のモーダルから特徴を融合させる従来の手法とは対照的に,提案手法は単一時系列エンコーダを保持することにより,ニューラルアーキテクチャを単純化する。
我々のアプローチは、様々な下流タスクにまたがる既存の最先端のURLメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-12-09T22:31:20Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Pair-wise Layer Attention with Spatial Masking for Video Prediction [46.17429511620538]
Pair-wise Layer Attention (PLA) モジュールを開発した。
また,Pair-wise Layer Attention with Spatial Masking (SM-SM) フレームワークをトランスレータ予測のために提案する。
論文 参考訳(メタデータ) (2023-11-19T10:29:05Z) - DynPoint: Dynamic Neural Point For View Synthesis [45.44096876841621]
我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。
DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。
本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-29T12:55:53Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。