論文の概要: Beyond Wide-Angle Images: Structure-to-Detail Video Portrait Correction via Unsupervised Spatiotemporal Adaptation
- arxiv url: http://arxiv.org/abs/2504.00401v2
- Date: Wed, 06 Aug 2025 04:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:08.190019
- Title: Beyond Wide-Angle Images: Structure-to-Detail Video Portrait Correction via Unsupervised Spatiotemporal Adaptation
- Title(参考訳): 広角画像を超えて:非教師なし時空間適応による構造から細部までのビデオ画像補正
- Authors: Wenbo Nie, Lang Nie, Chunyu Lin, Jingwen Chen, Ke Xing, Jiyuan Wang, Kang Liao,
- Abstract要約: そこで我々は,ImagePC という構造と細かな人物像の補正モデルを提案する。
変換器の長距離認識と拡散モデルの多段階分極を統一的なフレームワークに統合する。
ビデオラベル取得の高コストを考えると、未ラベル広角ビデオ(終値ビデオPC)に ImagePC を再利用する。
- 参考スコア(独自算出の注目度): 30.50527916658749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wide-angle cameras, despite their popularity for content creation, suffer from distortion-induced facial stretching-especially at the edge of the lens-which degrades visual appeal. To address this issue, we propose a structure-to-detail portrait correction model named ImagePC. It integrates the long-range awareness of the transformer and multi-step denoising of diffusion models into a unified framework, achieving global structural robustness and local detail refinement. Besides, considering the high cost of obtaining video labels, we then repurpose ImagePC for unlabeled wide-angle videos (termed VideoPC), by spatiotemporal diffusion adaption with spatial consistency and temporal smoothness constraints. For the former, we encourage the denoised image to approximate pseudo labels following the wide-angle distortion distribution pattern, while for the latter, we derive rectification trajectories with backward optical flows and smooth them. Compared with ImagePC, VideoPC maintains high-quality facial corrections in space and mitigates the potential temporal shakes sequentially in blind scenarios. Finally, to establish an evaluation benchmark and train the framework, we establish a video portrait dataset with a large diversity in the number of people, lighting conditions, and background. Experiments demonstrate that the proposed methods outperform existing solutions quantitatively and qualitatively, contributing to high-fidelity wide-angle videos with stable and natural portraits. The codes and dataset will be available.
- Abstract(参考訳): 広角カメラは、コンテンツ制作に人気があるにもかかわらず、歪みによって引き起こされる顔の伸縮に悩まされている。
この問題に対処するため,我々はImagePC という構造と細部の位置補正モデルを提案する。
これは、トランスフォーマーの長距離認識と拡散モデルのマルチステップ認知を統一されたフレームワークに統合し、グローバルな構造的堅牢性と局所的な詳細化を達成する。
また,ビデオラベルの取得コストが高いことから,空間的整合性や時間的滑らかさの制約による時空間拡散適応により,ラベルなし広角ビデオ(ビデオPC)のイメージPCを再利用した。
前者に対しては、広角歪み分布パターンに従って擬似ラベルを近似するよう指示する一方、後者では、後方光流による整形軌道を導出し、円滑にする。
ImagePCと比較すると、VideoPCは空間における高品質な顔補正を維持し、視覚障害のシナリオで時間的揺らぎを連続的に緩和する。
最後に,評価ベンチマークを確立し,フレームワークをトレーニングするために,人物数,照明条件,背景の多様性に富んだ映像ポートレートデータセットを構築した。
実験により,提案手法は既存手法よりも定量的かつ質的に優れており,安定かつ自然な肖像画を用いた高忠実度広角ビデオに寄与することが示された。
コードとデータセットが利用可能になる。
関連論文リスト
- GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration [24.004683996460685]
ビデオ顔の復元は、劣化した入力から顔の詳細を回復しながら、時間的一貫性を維持する上で重要な課題に直面します。
本稿では,Vector-Quantized Variational Autoencoders (VQ-VAEs) をビデオ復元フレームワークに拡張する手法を提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:28Z) - VipDiff: Towards Coherent and Diverse Video Inpainting via Training-free Denoising Diffusion Models [21.584843961386888]
VipDiffは、時間的コヒーレントな塗装結果を生成するために、逆拡散過程に拡散モデルを条件付けるためのフレームワークである。
この手法は、空間的時間的コヒーレンスと忠実度の両方の観点から、最先端の映像塗装法よりも優れている。
論文 参考訳(メタデータ) (2025-01-21T16:39:09Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - FlexNeRF: Photorealistic Free-viewpoint Rendering of Moving Humans from
Sparse Views [71.77680030806513]
本稿では,モノクラー映像からの人間の動きの光リアルなフリービューポイントレンダリング法FlexNeRFを提案する。
提案手法は,被験者が高速/複雑動作を示す場合の難解なシナリオであるスパースビューとうまく連携する。
我々の新しい時間的および周期的一貫性の制約のおかげで、観察されたビューがスペーサーになるにつれて、我々のアプローチは高品質な出力を提供する。
論文 参考訳(メタデータ) (2023-03-25T05:47:08Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Correcting Face Distortion in Wide-Angle Videos [85.88898349347149]
これらの歪みを補正するビデオワープアルゴリズムを提案する。
私たちのキーとなるアイデアは、顔領域に局所的に立体投影を適用することです。
性能評価のために,焦点距離の広い広角ビデオデータセットを開発した。
論文 参考訳(メタデータ) (2021-11-18T21:28:17Z) - Practical Wide-Angle Portraits Correction with Deep Structured Models [17.62752136436382]
本稿では,写真から視線歪みを取り除くための深層学習手法について紹介する。
入力として広角ポートレートが与えられると、LineNet、ShapeNet、トランジションモジュールからなるカスケードネットワークを構築します。
定量的評価には,ラインの整合性と面の整合性という2つの新しい指標を導入する。
論文 参考訳(メタデータ) (2021-04-26T10:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。