論文の概要: Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography
- arxiv url: http://arxiv.org/abs/2212.12324v2
- Date: Mon, 27 Mar 2023 18:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 17:56:46.016109
- Title: Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography
- Title(参考訳): 平面上の揺動:非安定写真からの教師なし深度推定
- Authors: Ilya Chugunov, Yuxuan Zhang, Felix Heide
- Abstract要約: 2秒で取得した12メガピクセルのRAWフレームの「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることが示されている。
我々は、長時間バーストデータにニューラルRGB-D表現を適合させるテスト時間最適化手法を考案し、シーン深度とカメラモーションを同時に推定する。
- 参考スコア(独自算出の注目度): 54.36608424943729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern mobile burst photography pipelines capture and merge a short sequence
of frames to recover an enhanced image, but often disregard the 3D nature of
the scene they capture, treating pixel motion between images as a 2D
aggregation problem. We show that in a ''long-burst'', forty-two 12-megapixel
RAW frames captured in a two-second sequence, there is enough parallax
information from natural hand tremor alone to recover high-quality scene depth.
To this end, we devise a test-time optimization approach that fits a neural
RGB-D representation to long-burst data and simultaneously estimates scene
depth and camera motion. Our plane plus depth model is trained end-to-end, and
performs coarse-to-fine refinement by controlling which multi-resolution volume
features the network has access to at what time during training. We validate
the method experimentally, and demonstrate geometrically accurate depth
reconstructions with no additional hardware or separate data pre-processing and
pose-estimation steps.
- Abstract(参考訳): 現代のモバイルバースト撮影パイプラインは、拡張されたイメージを回収するために短いフレーム列をキャプチャしてマージするが、多くの場合、キャプチャするシーンの3D特性を無視し、画像間のピクセルの動きを2Dアグリゲーション問題として扱う。
2秒で取得した24メガピクセルのRAWフレーム「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることがわかった。
この目的のために, ニューラルRGB-D表現をロングバーストデータに適合させるテスト時間最適化手法を考案し, シーン深度とカメラモーションを同時に推定する。
我々の平面+深度モデルはエンドツーエンドに訓練され、トレーニング中にネットワークがアクセスするマルチレゾリューションボリュームを制御して粗大な精細化を行う。
本手法を実験的に検証し,追加のハードウェアや別個のデータ前処理やポーズ推定ステップを伴わずに,幾何学的精度の高い奥行き復元を行う。
関連論文リスト
- FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - DEVO: Depth-Event Camera Visual Odometry in Challenging Conditions [30.892930944644853]
本稿では,深度・高解像度イベントカメラのステレオ設定のための新しいリアルタイムビジュアル・オドメトリー・フレームワークを提案する。
本フレームワークは, 計算効率に対する精度と堅牢性を, 挑戦シナリオにおける高い性能にバランスさせる。
論文 参考訳(メタデータ) (2022-02-05T13:46:47Z) - Towards Non-Line-of-Sight Photography [48.491977359971855]
非視線イメージング(NLOS)は、隠された物体からの多重バウンス間接反射を捉えることに基づいている。
アクティブなNLOSイメージングシステムは、シーンを通しての光の飛行時間の捕捉に依存している。
我々はNLOS写真と呼ばれる新しい問題定式化を提案し、この欠陥に特に対処する。
論文 参考訳(メタデータ) (2021-09-16T08:07:13Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。