論文の概要: Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis
- arxiv url: http://arxiv.org/abs/2012.06134v1
- Date: Fri, 11 Dec 2020 05:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:01:54.022374
- Title: Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis
- Title(参考訳): 高分解能ビデオ合成のための固有時間規則化
- Authors: Lingbo Yang, Zhanning Gao, Peiran Ren, Siwei Ma, Wen Gao
- Abstract要約: 時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
- 参考スコア(独自算出の注目度): 59.54483950973432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal consistency is crucial for extending image processing pipelines to
the video domain, which is often enforced with flow-based warping error over
adjacent frames. Yet for human video synthesis, such scheme is less reliable
due to the misalignment between source and target video as well as the
difficulty in accurate flow estimation. In this paper, we propose an effective
intrinsic temporal regularization scheme to mitigate these issues, where an
intrinsic confidence map is estimated via the frame generator to regulate
motion estimation via temporal loss modulation. This creates a shortcut for
back-propagating temporal loss gradients directly to the front-end motion
estimator, thus improving training stability and temporal coherence in output
videos. We apply our intrinsic temporal regulation to single-image generator,
leading to a powerful "INTERnet" capable of generating $512\times512$
resolution human action videos with temporal-coherent, realistic visual
details. Extensive experiments demonstrate the superiority of proposed INTERnet
over several competitive baselines.
- Abstract(参考訳): 時間的一貫性は、画像処理パイプラインをビデオドメインに拡張する上で非常に重要です。
しかし,人間の映像合成では,音源と対象映像のずれや正確な流れ推定の難しさから,その信頼性は低下している。
本稿では,フレーム生成器を介して固有信頼度マップを推定し,時間的損失変調による動き推定を制御し,これらの問題を緩和するための有効な固有時間正規化手法を提案する。
これにより、前端運動推定器に直接時間的損失勾配をバックプロパゲーションするショートカットが作成され、出力ビデオのトレーニング安定性と時間的コヒーレンスが向上する。
我々は、時間的コヒーレントでリアルな視覚的ディテールを備えた512\times512$の人間のアクションビデオを生成することができる強力な「INTERnet」を実現する。
大規模な実験は、いくつかの競争基盤線よりも提案されたInternetの優位性を実証している。
関連論文リスト
- Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。
次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。
このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文 参考訳(メタデータ) (2025-01-13T18:53:08Z) - Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory [92.1714656167712]
本稿では,単一または複数プロンプトで生成されたビデオの一貫性とコヒーレンスを高めるため,時間的注意強調アルゴリズム(TiARA)を提案する。
本手法は拡散モデルにおける周波数に基づく手法の第一種である理論的保証によって支持される。
複数のプロンプトが生成するビデオについては、プロンプト品質に影響を及ぼす重要な要因をさらに調査し、プロンプトブレンド(PromptBlend)という高度なビデオプロンプトパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - STint: Self-supervised Temporal Interpolation for Geospatial Data [0.0]
監督・監督されていない技術は、ビデオデータの時間的可能性を実証している。
最も一般的な時間的手法は、ビデオフレーム間のピクセルの動きを符号化する光の流れにヒンジする。
本研究では,地上の真実データに頼らず,光学的流れのような動き情報を必要としない,教師なしの時間的手法を提案する。
論文 参考訳(メタデータ) (2023-08-31T18:04:50Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Learning Temporally and Semantically Consistent Unpaired Video-to-video
Translation Through Pseudo-Supervision From Synthetic Optical Flow [5.184108122340348]
Unpaired-to-Video翻訳は、トレーニングデータのペアを必要とせずに、ソースとターゲットドメイン間でビデオを翻訳することを目的としている。
入力ビデオ中の新しい動きを推定するのではなく、生成した光の流れで合成することにより、映像の一貫性を規則化するパラダイムを提案する。
論文 参考訳(メタデータ) (2022-01-15T01:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。