論文の概要: Beyond Wide-Angle Images: Unsupervised Video Portrait Correction via Spatiotemporal Diffusion Adaptation
- arxiv url: http://arxiv.org/abs/2504.00401v1
- Date: Tue, 01 Apr 2025 03:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:39.162727
- Title: Beyond Wide-Angle Images: Unsupervised Video Portrait Correction via Spatiotemporal Diffusion Adaptation
- Title(参考訳): 広角画像を超えて:時空間拡散適応による教師なしビデオ画像補正
- Authors: Wenbo Nie, Lang Nie, Chunyu Lin, Jingwen Chen, Ke Xing, Jiyuan Wang, Yao Zhao,
- Abstract要約: 拡散モデルを用いた画像像補正フレームワークであるImagePDを提案する。
トランスフォーマーの長距離認識と拡散モデルのマルチステップ認知を統合フレームワークに統合する。
実験により,提案手法は既存の解よりも定量的に,質的に優れていることが示された。
- 参考スコア(独自算出の注目度): 46.16087086554505
- License:
- Abstract: Wide-angle cameras, despite their popularity for content creation, suffer from distortion-induced facial stretching-especially at the edge of the lens-which degrades visual appeal. To address this issue, we propose an image portrait correction framework using diffusion models named ImagePD. It integrates the long-range awareness of transformer and multi-step denoising of diffusion models into a unified framework, achieving global structural robustness and local detail refinement. Besides, considering the high cost of obtaining video labels, we then repurpose ImagePD for unlabeled wide-angle videos (termed VideoPD), by spatiotemporal diffusion adaption with spatial consistency and temporal smoothness constraints. For the former, we encourage the denoised image to approximate pseudo labels following the wide-angle distortion distribution pattern, while for the latter, we derive rectification trajectories with backward optical flows and smooth them. Compared with ImagePD, VideoPD maintains high-quality facial corrections in space and mitigates the potential temporal shakes sequentially. Finally, to establish an evaluation benchmark and train the framework, we establish a video portrait dataset with a large diversity in people number, lighting conditions, and background. Experiments demonstrate that the proposed methods outperform existing solutions quantitatively and qualitatively, contributing to high-fidelity wide-angle videos with stable and natural portraits. The codes and dataset will be available.
- Abstract(参考訳): 広角カメラは、コンテンツ制作に人気があるにもかかわらず、歪みによって引き起こされる顔の伸縮に悩まされている。
この問題に対処するために,ImagePD という拡散モデルを用いた画像像補正フレームワークを提案する。
トランスフォーマーの長距離認識と拡散モデルのマルチステップ認知を統一されたフレームワークに統合し、グローバルな構造的堅牢性と局所的な詳細化を実現する。
また,ビデオラベルの取得コストが高いことを考慮し,空間的一貫性と時間的滑らかさの制約による時空間拡散適応により,未ラベルの広角ビデオ(ビデオPD)に画像PDを再利用した。
前者に対しては、広角歪み分布パターンに従って擬似ラベルを近似するよう指示する一方、後者では、後方光流による整形軌道を導出し、円滑にする。
ImagePDと比較すると、VideoPDは空間における高品質な顔補正を維持し、時間的揺らぎを逐次緩和する。
最後に、評価ベンチマークを確立し、フレームワークをトレーニングするために、人物数、照明条件、背景の多様さで動画ポートレートデータセットを構築した。
実験により,提案手法は既存手法よりも定量的かつ質的に優れており,安定かつ自然な肖像画を用いた高忠実度広角ビデオに寄与することが示された。
コードとデータセットが利用可能になる。
関連論文リスト
- VipDiff: Towards Coherent and Diverse Video Inpainting via Training-free Denoising Diffusion Models [21.584843961386888]
VipDiffは、時間的コヒーレントな塗装結果を生成するために、逆拡散過程に拡散モデルを条件付けるためのフレームワークである。
この手法は、空間的時間的コヒーレンスと忠実度の両方の観点から、最先端の映像塗装法よりも優れている。
論文 参考訳(メタデータ) (2025-01-21T16:39:09Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Correcting Face Distortion in Wide-Angle Videos [85.88898349347149]
これらの歪みを補正するビデオワープアルゴリズムを提案する。
私たちのキーとなるアイデアは、顔領域に局所的に立体投影を適用することです。
性能評価のために,焦点距離の広い広角ビデオデータセットを開発した。
論文 参考訳(メタデータ) (2021-11-18T21:28:17Z) - Practical Wide-Angle Portraits Correction with Deep Structured Models [17.62752136436382]
本稿では,写真から視線歪みを取り除くための深層学習手法について紹介する。
入力として広角ポートレートが与えられると、LineNet、ShapeNet、トランジションモジュールからなるカスケードネットワークを構築します。
定量的評価には,ラインの整合性と面の整合性という2つの新しい指標を導入する。
論文 参考訳(メタデータ) (2021-04-26T10:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。