論文の概要: Learning Temporally and Semantically Consistent Unpaired Video-to-video
Translation Through Pseudo-Supervision From Synthetic Optical Flow
- arxiv url: http://arxiv.org/abs/2201.05723v1
- Date: Sat, 15 Jan 2022 01:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 15:56:50.684814
- Title: Learning Temporally and Semantically Consistent Unpaired Video-to-video
Translation Through Pseudo-Supervision From Synthetic Optical Flow
- Title(参考訳): 合成光学流からの擬似スーパービジョンによる時間的・意味的に一貫性のないビデオ間翻訳の学習
- Authors: Kaihong Wang, Kumar Akash, Teruhisa Misu
- Abstract要約: Unpaired-to-Video翻訳は、トレーニングデータのペアを必要とせずに、ソースとターゲットドメイン間でビデオを翻訳することを目的としている。
入力ビデオ中の新しい動きを推定するのではなく、生成した光の流れで合成することにより、映像の一貫性を規則化するパラダイムを提案する。
- 参考スコア(独自算出の注目度): 5.184108122340348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unpaired video-to-video translation aims to translate videos between a source
and a target domain without the need of paired training data, making it more
feasible for real applications. Unfortunately, the translated videos generally
suffer from temporal and semantic inconsistency. To address this, many existing
works adopt spatiotemporal consistency constraints incorporating temporal
information based on motion estimation. However, the inaccuracies in the
estimation of motion deteriorate the quality of the guidance towards
spatiotemporal consistency, which leads to unstable translation. In this work,
we propose a novel paradigm that regularizes the spatiotemporal consistency by
synthesizing motions in input videos with the generated optical flow instead of
estimating them. Therefore, the synthetic motion can be applied in the
regularization paradigm to keep motions consistent across domains without the
risk of errors in motion estimation. Thereafter, we utilize our unsupervised
recycle and unsupervised spatial loss, guided by the pseudo-supervision
provided by the synthetic optical flow, to accurately enforce spatiotemporal
consistency in both domains. Experiments show that our method is versatile in
various scenarios and achieves state-of-the-art performance in generating
temporally and semantically consistent videos. Code is available at:
https://github.com/wangkaihong/Unsup_Recycle_GAN/.
- Abstract(参考訳): unpaired video-to-video translationは、トレーニングデータのペア化を必要とせず、ソースとターゲットドメイン間のビデオ翻訳を目的としている。
残念ながら、翻訳されたビデオは一般的に時間的かつ意味的な矛盾に苦しむ。
これを解決するため、既存の多くの研究では、運動推定に基づく時間情報を含む時空間整合性制約が採用されている。
しかし,運動推定の不正確さは,時空間的一貫性に対する指導の質を低下させ,不安定な翻訳に繋がる。
本研究では,入力ビデオ中の動きを推定するのではなく,生成した光の流れで合成することにより,時空間の一貫性を規則化する新しいパラダイムを提案する。
したがって、合成運動は正規化パラダイムにおいて、動き推定の誤りのリスクを伴わずに領域をまたいで動きを一貫性を保つために適用することができる。
その後, 両領域の時空間整合性を正確に実施するために, 合成光流による擬似スーパービジョンによって導かれる非教師なしリサイクルと非教師なし空間損失を利用する。
実験により,本手法は様々なシナリオにおいて汎用性を示し,時間的・意味的に一貫したビデオを生成する上で,最先端のパフォーマンスを実現する。
コードは、https://github.com/wangkaihong/Unsup_Recycle_GAN/で入手できる。
関連論文リスト
- FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Segmenting the motion components of a video: A long-term unsupervised model [5.801044612920816]
ビデオシーケンス上でのコヒーレントで安定した動作セグメンテーションを提供したいと思っています。
完全教師なし方式で動作する新しい長期光時間モデルを提案する。
4つのVOSに関する実験を報告し、競争力のある定量的結果を示した。
論文 参考訳(メタデータ) (2023-10-02T09:33:54Z) - STint: Self-supervised Temporal Interpolation for Geospatial Data [0.0]
監督・監督されていない技術は、ビデオデータの時間的可能性を実証している。
最も一般的な時間的手法は、ビデオフレーム間のピクセルの動きを符号化する光の流れにヒンジする。
本研究では,地上の真実データに頼らず,光学的流れのような動き情報を必要としない,教師なしの時間的手法を提案する。
論文 参考訳(メタデータ) (2023-08-31T18:04:50Z) - Unsupervised Learning Optical Flow in Multi-frame Dynamic Environment
Using Temporal Dynamic Modeling [7.111443975103329]
本稿では,動的シーンの複数フレーム列からの光フロー推定について検討する。
隣接フレームの動作先を用いて、閉鎖領域のより信頼性の高い監視を行う。
KITTI 2012、KITTI 2015、Sintel Clean、Sintel Finalデータセットの実験は、我々の手法の有効性を実証している。
論文 参考訳(メタデータ) (2023-04-14T14:32:02Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - Long-Term Temporally Consistent Unpaired Video Translation from
Simulated Surgical 3D Data [0.059110875077162096]
本稿では,画像翻訳とニューラルレンダリングを併用して,写真リアルな腹部手術シーンにシミュレートする手法を提案する。
グローバル学習可能なテクスチャと照明不変のビューコンシスタンス損失を導入することにより,任意のビューの一貫した翻訳を生成する。
既存の画像ベース手法をビュー一貫性ビデオに拡張することにより,シミュレートされたトレーニングおよび手術用評価環境の適用性に影響を与えることを目指す。
論文 参考訳(メタデータ) (2021-03-31T16:31:26Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。