Fugu-MT 論文翻訳(概要): Intrinsic Temporal Regularization for High-resolution Human Video Synthesis

論文の概要: Intrinsic Temporal Regularization for High-resolution Human Video Synthesis

arxiv url: http://arxiv.org/abs/2012.06134v1
Date: Fri, 11 Dec 2020 05:29:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-11 03:01:54.022374
Title: Intrinsic Temporal Regularization for High-resolution Human Video Synthesis
Title（参考訳）: 高分解能ビデオ合成のための固有時間規則化
Authors: Lingbo Yang, Zhanning Gao, Peiran Ren, Siwei Ma, Wen Gao
Abstract要約: 時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
参考スコア（独自算出の注目度）: 59.54483950973432
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Temporal consistency is crucial for extending image processing pipelines to the video domain, which is often enforced with flow-based warping error over adjacent frames. Yet for human video synthesis, such scheme is less reliable due to the misalignment between source and target video as well as the difficulty in accurate flow estimation. In this paper, we propose an effective intrinsic temporal regularization scheme to mitigate these issues, where an intrinsic confidence map is estimated via the frame generator to regulate motion estimation via temporal loss modulation. This creates a shortcut for back-propagating temporal loss gradients directly to the front-end motion estimator, thus improving training stability and temporal coherence in output videos. We apply our intrinsic temporal regulation to single-image generator, leading to a powerful "INTERnet" capable of generating $512\times512$ resolution human action videos with temporal-coherent, realistic visual details. Extensive experiments demonstrate the superiority of proposed INTERnet over several competitive baselines.
Abstract（参考訳）: 時間的一貫性は、画像処理パイプラインをビデオドメインに拡張する上で非常に重要です。しかし,人間の映像合成では,音源と対象映像のずれや正確な流れ推定の難しさから,その信頼性は低下している。本稿では,フレーム生成器を介して固有信頼度マップを推定し,時間的損失変調による動き推定を制御し,これらの問題を緩和するための有効な固有時間正規化手法を提案する。これにより、前端運動推定器に直接時間的損失勾配をバックプロパゲーションするショートカットが作成され、出力ビデオのトレーニング安定性と時間的コヒーレンスが向上する。我々は、時間的コヒーレントでリアルな視覚的ディテールを備えた512\times512$の人間のアクションビデオを生成することができる強力な「INTERnet」を実現する。大規模な実験は、いくつかの競争基盤線よりも提案されたInternetの優位性を実証している。

関連論文リスト

JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、新しい適応型ジョイントトレーニングフレームワークである。我々は文脈認識型ゲーティング機構を組み込んだAdaptive LoRAを開発した。内在性外見から運動パターンを分離するために出現非依存の時間損失を導入する。
論文参考訳（メタデータ） (2025-03-31T11:04:07Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文参考訳（メタデータ） (2025-01-13T18:53:08Z)
Enhancing Long Video Generation Consistency without Tuning [92.1714656167712]
単一のプロンプトまたは複数のプロンプトで生成されたビデオの一貫性とコヒーレンスを高めるための課題に対処する。本稿では,時間周波数に基づく時間的注意再重み付けアルゴリズム(TiARA)を提案する。複数のプロンプトによって生成されたビデオに対しては、プロンプトのアライメントがプロンプトの品質に影響を及ぼすといった重要な要因をさらに明らかにする。提案するPromptBlendは,プロンプトを系統的に整列させるプロンプトパイプラインである。
論文参考訳（メタデータ） (2024-12-23T03:56:27Z)
Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [19.590464986176617]
LetsTalkは、ビデオ合成のための拡散拡散TranSformerである。提案手法は最先端の生成品質を実現し,時間的コヒーレントでリアルなビデオを生成する。
論文参考訳（メタデータ） (2024-11-24T04:46:00Z)
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文参考訳（メタデータ） (2024-07-11T17:34:51Z)
Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。 1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文参考訳（メタデータ） (2024-05-24T15:56:40Z)
STint: Self-supervised Temporal Interpolation for Geospatial Data [0.0]
監督・監督されていない技術は、ビデオデータの時間的可能性を実証している。最も一般的な時間的手法は、ビデオフレーム間のピクセルの動きを符号化する光の流れにヒンジする。本研究では,地上の真実データに頼らず,光学的流れのような動き情報を必要としない,教師なしの時間的手法を提案する。
論文参考訳（メタデータ） (2023-08-31T18:04:50Z)
RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文参考訳（メタデータ） (2023-08-11T12:17:24Z)
Continuous Space-Time Video Super-Resolution Utilizing Long-Range Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文参考訳（メタデータ） (2023-02-26T08:02:39Z)
Distortion-Aware Network Pruning and Feature Reuse for Real-time Video Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文参考訳（メタデータ） (2022-06-20T07:20:02Z)
Controllable Augmentations for Video Representation Learning [34.79719112810065]
本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
論文参考訳（メタデータ） (2022-03-30T19:34:32Z)
Learning Temporally and Semantically Consistent Unpaired Video-to-video Translation Through Pseudo-Supervision From Synthetic Optical Flow [5.184108122340348]
Unpaired-to-Video翻訳は、トレーニングデータのペアを必要とせずに、ソースとターゲットドメイン間でビデオを翻訳することを目的としている。入力ビデオ中の新しい動きを推定するのではなく、生成した光の流れで合成することにより、映像の一貫性を規則化するパラダイムを提案する。
論文参考訳（メタデータ） (2022-01-15T01:10:34Z)
Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文参考訳（メタデータ） (2020-06-19T17:28:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。