論文の概要: An End-to-End Depth-Based Pipeline for Selfie Image Rectification
- arxiv url: http://arxiv.org/abs/2412.19189v1
- Date: Thu, 26 Dec 2024 11:57:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:17.568961
- Title: An End-to-End Depth-Based Pipeline for Selfie Image Rectification
- Title(参考訳): 自撮り画像整形のためのエンドツーエンド奥行きパイプライン
- Authors: Ahmed Alhawwary, Phong Nguyen-Ha, Janne Mustaniemi, Janne Heikkilä,
- Abstract要約: 近距離から撮影したポートレイトやセルフィー画像は、一般的に視線歪みに悩まされる。
本稿では,視点歪みの影響を軽減するために,エンド・ツー・エンドの深層学習に基づく修正パイプラインを提案する。
我々のパイプラインは、260倍以上高速な3D GANベースの手法で、同等の結果が得られます。
- 参考スコア(独自算出の注目度): 9.08591353212111
- License:
- Abstract: Portraits or selfie images taken from a close distance typically suffer from perspective distortion. In this paper, we propose an end-to-end deep learning-based rectification pipeline to mitigate the effects of perspective distortion. We learn to predict the facial depth by training a deep CNN. The estimated depth is utilized to adjust the camera-to-subject distance by moving the camera farther, increasing the camera focal length, and reprojecting the 3D image features to the new perspective. The reprojected features are then fed to an inpainting module to fill in the missing pixels. We leverage a differentiable renderer to enable end-to-end training of our depth estimation and feature extraction nets to improve the rectified outputs. To boost the results of the inpainting module, we incorporate an auxiliary module to predict the horizontal movement of the camera which decreases the area that requires hallucination of challenging face parts such as ears. Unlike previous works, we process the full-frame input image at once without cropping the subject's face and processing it separately from the rest of the body, eliminating the need for complex post-processing steps to attach the face back to the subject's body. To train our network, we utilize the popular game engine Unreal Engine to generate a large synthetic face dataset containing various subjects, head poses, expressions, eyewear, clothes, and lighting. Quantitative and qualitative results show that our rectification pipeline outperforms previous methods, and produces comparable results with a time-consuming 3D GAN-based method while being more than 260 times faster.
- Abstract(参考訳): 近距離から撮影したポートレイトやセルフィー画像は、一般的に視線歪みに悩まされる。
本稿では,視点歪みの影響を軽減するために,エンド・ツー・エンドの深層学習に基づく修正パイプラインを提案する。
我々は,深層CNNを訓練することで,顔深度を予測することを学ぶ。
推定深度を利用して、カメラを遠方へ移動させ、焦点距離を増大させ、3D画像の特徴を新たな視点に再投影することで、被写体間距離を調節する。
再プロジェクションされた機能は、欠落したピクセルを埋めるために、インペインティングモジュールに送られる。
我々は、識別可能なレンダラを利用して、深度推定と特徴抽出ネットのエンドツーエンドトレーニングを可能にし、補正出力を改善する。
塗布モジュールの結果を高めるために補助モジュールを組み込んでカメラの水平移動を予測し,耳などの難解な顔部分の幻覚を必要とする領域を減少させる。
従来と異なり、被験者の顔を取り除き、身体の他の部分と別々に処理することなく、一度にフルフレームの入力画像を処理し、被験者の体に顔を取り戻す複雑な後処理ステップを不要にする。
ネットワークをトレーニングするために、人気のあるゲームエンジンであるUnreal Engineを使用して、さまざまな主題、頭部ポーズ、表情、眼鏡、衣服、照明を含む大規模な合成顔データセットを生成する。
定量的および定性的な結果から,我々の修正パイプラインは従来の手法よりも優れており,260倍以上高速な3D GAN方式で比較結果が得られた。
関連論文リスト
- FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera [8.502741852406904]
魚眼カメラに適した自己監督深度推定モデルである魚眼深度について述べる。
魚眼カメラモデルを訓練中の投射と再投射の段階に組み込んで画像歪みの処理を行う。
また、連続するフレーム間の幾何学的投影に実際のポーズ情報を組み込んで、従来のポーズネットワークで推定されたポーズを置き換える。
論文 参考訳(メタデータ) (2024-09-23T14:31:42Z) - SUPER: Selfie Undistortion and Head Pose Editing with Identity Preservation [37.89326064230339]
Superは、クローズアップ顔作物の歪みを排除し、頭部のポーズを調整する新しい方法である。
我々は,カメラパラメータと顔潜時符号を最適化することにより,顔画像の3D GANインバージョンを行う。
得られた潜伏符号から深度を推定し、深度誘導型3Dメッシュを作成し、更新されたカメラパラメータでレンダリングし、歪んだポートレートを得る。
論文 参考訳(メタデータ) (2024-06-18T15:14:14Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography [54.36608424943729]
2秒で取得した12メガピクセルのRAWフレームの「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることが示されている。
我々は、長時間バーストデータにニューラルRGB-D表現を適合させるテスト時間最適化手法を考案し、シーン深度とカメラモーションを同時に推定する。
論文 参考訳(メタデータ) (2022-12-22T18:54:34Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Graph-Based Depth Denoising & Dequantization for Point Cloud Enhancement [47.61748619439693]
3Dポイントの雲は通常、センサーが1つ以上の視点で取得した深さの測定から構築される。
以前の作業では、不完全な深度データを3D空間に投影した後、点雲テクティタ後部をノイズ化する。
本研究では,3次元点雲の合成に先立って,検出画像のテクスタイタ事前に直接深度測定を施す。
論文 参考訳(メタデータ) (2021-11-09T04:17:35Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - High-Resolution Image Inpainting with Iterative Confidence Feedback and
Guided Upsampling [122.06593036862611]
既存の画像塗装法は、実アプリケーションで大きな穴を扱う際に、しばしばアーティファクトを生成する。
本稿では,フィードバック機構を備えた反復インペイント手法を提案する。
実験により,本手法は定量評価と定性評価の両方において既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-05-24T13:23:45Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。