論文の概要: Exemplar-based Video Colorization with Long-term Spatiotemporal
Dependency
- arxiv url: http://arxiv.org/abs/2303.15081v1
- Date: Mon, 27 Mar 2023 10:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:01:34.144397
- Title: Exemplar-based Video Colorization with Long-term Spatiotemporal
Dependency
- Title(参考訳): 長時間時空間依存性を有するexemplarに基づくビデオカラー化
- Authors: Siqi Chen, Xueming Li, Xianlin Zhang, Mingdao Wang, Yu Zhang, Jiatong
Han, Yue Zhang
- Abstract要約: 外見に基づく映像のカラー化は、古い映画復元のような応用に欠かせない技術である。
本稿では,長期間の時間依存性を考慮したビデオカラー化フレームワークを提案する。
我々のモデルは、特に物体が大きく不規則に変化する場面において、よりカラフルでリアルで安定した結果を生み出すことができる。
- 参考スコア(独自算出の注目度): 10.223719035434586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exemplar-based video colorization is an essential technique for applications
like old movie restoration. Although recent methods perform well in still
scenes or scenes with regular movement, they always lack robustness in moving
scenes due to their weak ability in modeling long-term dependency both
spatially and temporally, leading to color fading, color discontinuity or other
artifacts. To solve this problem, we propose an exemplar-based video
colorization framework with long-term spatiotemporal dependency. To enhance the
long-term spatial dependency, a parallelized CNN-Transformer block and a double
head non-local operation are designed. The proposed CNN-Transformer block can
better incorporate long-term spatial dependency with local texture and
structural features, and the double head non-local operation further leverages
the performance of augmented feature. While for long-term temporal dependency
enhancement, we further introduce the novel linkage subnet. The linkage subnet
propagate motion information across adjacent frame blocks and help to maintain
temporal continuity. Experiments demonstrate that our model outperforms recent
state-of-the-art methods both quantitatively and qualitatively. Also, our model
can generate more colorful, realistic and stabilized results, especially for
scenes where objects change greatly and irregularly.
- Abstract(参考訳): 映像のカラー化は、古い映画復元のような応用に欠かせない技術である。
最近の手法は静止画や定在的な動きのある場面ではうまく機能するが、空間的にも時間的にも長期依存をモデル化する能力が弱く、色相、色相不連続、その他のアーティファクトに繋がるため、常に移動シーンの堅牢さに欠ける。
この問題を解決するために,長時間の時空間依存性を有するビデオカラー化フレームワークを提案する。
長期空間依存性を高めるため、並列化されたcnn変換ブロックとダブルヘッド非局所動作を設計する。
提案するcnn-transformerブロックは, 長期的空間依存を局所的なテクスチャや構造的特徴にうまく組み込むことができ, ダブルヘッド非局所操作は拡張機能の性能をさらに活用する。
長期の時間的依存の強化には,新たなリンクサブネットを導入する。
リンクサブネットは、隣接するフレームブロック間で動き情報を伝搬し、時間的連続性を維持する。
実験により,本モデルが最近の最先端手法を定量的・定性的に上回っていることを実証した。
また,本モデルでは,特に物体が大きく不規則に変化する場面において,よりカラフルでリアルで安定した結果が得られる。
関連論文リスト
- LatentColorization: Latent Diffusion-Based Speaker Video Colorization [1.2641141743223379]
ビデオのカラー化における時間的一貫性を実現するための新しいソリューションを提案する。
既存の手法と比較して,確立された画像品質指標の大幅な改善を示す。
我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
論文 参考訳(メタデータ) (2024-05-09T12:06:06Z) - ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization [62.751303924391564]
映像のカラー化において,空間時間的特徴を効果的に探索する方法が重要である。
我々は,メモリベースの機能伝搬モジュールを開発し,遠方のフレームからの機能との信頼性の高い接続を確立する。
空間時間近傍の隣接するフレームから特徴を集約するローカルアテンションモジュールを開発した。
論文 参考訳(メタデータ) (2024-04-09T12:23:30Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Temporally Consistent Video Colorization with Deep Feature Propagation
and Self-regularization Learning [90.38674162878496]
時間的に一貫した新しいビデオカラー化フレームワーク(TCVC)を提案する。
TCVCは、フレームレベルの深い特徴を双方向的に効果的に伝播し、色付けの時間的一貫性を高める。
実験により,本手法は視覚的に満足な色付きビデオを得るだけでなく,最先端の手法よりも時間的整合性が得られることが示された。
論文 参考訳(メタデータ) (2021-10-09T13:00:14Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Short-Term and Long-Term Context Aggregation Network for Video
Inpainting [126.06302824297948]
Video Inpaintingは、ビデオの欠落した領域を復元することを目的としており、ビデオ編集やオブジェクト削除など多くのアプリケーションがある。
本稿では,映像インパインティングにおいて,短期・長期のフレーム情報を効果的に活用する新しいコンテキスト集約ネットワークを提案する。
実験により,最先端の手法よりも優れた塗布結果と高速塗布速度が得られた。
論文 参考訳(メタデータ) (2020-09-12T03:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。