論文の概要: Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis
- arxiv url: http://arxiv.org/abs/2012.06134v1
- Date: Fri, 11 Dec 2020 05:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:01:54.022374
- Title: Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis
- Title(参考訳): 高分解能ビデオ合成のための固有時間規則化
- Authors: Lingbo Yang, Zhanning Gao, Peiran Ren, Siwei Ma, Wen Gao
- Abstract要約: 時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
- 参考スコア(独自算出の注目度): 59.54483950973432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal consistency is crucial for extending image processing pipelines to
the video domain, which is often enforced with flow-based warping error over
adjacent frames. Yet for human video synthesis, such scheme is less reliable
due to the misalignment between source and target video as well as the
difficulty in accurate flow estimation. In this paper, we propose an effective
intrinsic temporal regularization scheme to mitigate these issues, where an
intrinsic confidence map is estimated via the frame generator to regulate
motion estimation via temporal loss modulation. This creates a shortcut for
back-propagating temporal loss gradients directly to the front-end motion
estimator, thus improving training stability and temporal coherence in output
videos. We apply our intrinsic temporal regulation to single-image generator,
leading to a powerful "INTERnet" capable of generating $512\times512$
resolution human action videos with temporal-coherent, realistic visual
details. Extensive experiments demonstrate the superiority of proposed INTERnet
over several competitive baselines.
- Abstract(参考訳): 時間的一貫性は、画像処理パイプラインをビデオドメインに拡張する上で非常に重要です。
しかし,人間の映像合成では,音源と対象映像のずれや正確な流れ推定の難しさから,その信頼性は低下している。
本稿では,フレーム生成器を介して固有信頼度マップを推定し,時間的損失変調による動き推定を制御し,これらの問題を緩和するための有効な固有時間正規化手法を提案する。
これにより、前端運動推定器に直接時間的損失勾配をバックプロパゲーションするショートカットが作成され、出力ビデオのトレーニング安定性と時間的コヒーレンスが向上する。
我々は、時間的コヒーレントでリアルな視覚的ディテールを備えた512\times512$の人間のアクションビデオを生成することができる強力な「INTERnet」を実現する。
大規模な実験は、いくつかの競争基盤線よりも提案されたInternetの優位性を実証している。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - STint: Self-supervised Temporal Interpolation for Geospatial Data [0.0]
監督・監督されていない技術は、ビデオデータの時間的可能性を実証している。
最も一般的な時間的手法は、ビデオフレーム間のピクセルの動きを符号化する光の流れにヒンジする。
本研究では,地上の真実データに頼らず,光学的流れのような動き情報を必要としない,教師なしの時間的手法を提案する。
論文 参考訳(メタデータ) (2023-08-31T18:04:50Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Controllable Augmentations for Video Representation Learning [34.79719112810065]
本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。
我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
論文 参考訳(メタデータ) (2022-03-30T19:34:32Z) - Learning Temporally and Semantically Consistent Unpaired Video-to-video
Translation Through Pseudo-Supervision From Synthetic Optical Flow [5.184108122340348]
Unpaired-to-Video翻訳は、トレーニングデータのペアを必要とせずに、ソースとターゲットドメイン間でビデオを翻訳することを目的としている。
入力ビデオ中の新しい動きを推定するのではなく、生成した光の流れで合成することにより、映像の一貫性を規則化するパラダイムを提案する。
論文 参考訳(メタデータ) (2022-01-15T01:10:34Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。