論文の概要: Camera Pose Matters: Improving Depth Prediction by Mitigating Pose
Distribution Bias
- arxiv url: http://arxiv.org/abs/2007.03887v2
- Date: Sun, 28 Mar 2021 05:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 13:15:19.261360
- Title: Camera Pose Matters: Improving Depth Prediction by Mitigating Pose
Distribution Bias
- Title(参考訳): カメラポーズ問題:姿勢分布バイアス緩和による深度予測の改善
- Authors: Yunhan Zhao, Shu Kong, Charless Fowlkes
- Abstract要約: トレーニングと予測中にカメラのポーズを利用する2つの新しい手法を提案する。
まず、より多様な視点で新しいトレーニング例を合成する、シンプルな視点対応データ拡張を提案する。
次に,画像当たりのカメラポーズを先行知識として利用し,入力の一部として符号化する条件モデルを提案する。
- 参考スコア(独自算出の注目度): 12.354076490479516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth predictors are typically trained on large-scale training sets
which are naturally biased w.r.t the distribution of camera poses. As a result,
trained predictors fail to make reliable depth predictions for testing examples
captured under uncommon camera poses. To address this issue, we propose two
novel techniques that exploit the camera pose during training and prediction.
First, we introduce a simple perspective-aware data augmentation that
synthesizes new training examples with more diverse views by perturbing the
existing ones in a geometrically consistent manner. Second, we propose a
conditional model that exploits the per-image camera pose as prior knowledge by
encoding it as a part of the input. We show that jointly applying the two
methods improves depth prediction on images captured under uncommon and even
never-before-seen camera poses. We show that our methods improve performance
when applied to a range of different predictor architectures. Lastly, we show
that explicitly encoding the camera pose distribution improves the
generalization performance of a synthetically trained depth predictor when
evaluated on real images.
- Abstract(参考訳): 単眼深度予測装置は通常、カメラポーズの分布に偏りがある大規模なトレーニングセットで訓練される。
その結果、訓練された予測者は、珍しいカメラポーズで撮影されたサンプルをテストするために、信頼できる深さ予測を行うことができない。
この問題に対処するために、トレーニングと予測中にカメラのポーズを利用する2つの新しい手法を提案する。
まず、幾何学的に一貫した方法で既存のものを摂動することで、より多様な視点で新しいトレーニング例を合成する単純な視点対応データ拡張を提案する。
次に,画像当たりのカメラポーズを先行知識として利用し,入力の一部として符号化する条件モデルを提案する。
この2つの手法を共同で適用することで、撮影される画像の深度予測が向上することを示す。
提案手法は,様々な予測アーキテクチャに適用することで性能が向上することを示す。
最後に,実画像上で評価した場合,カメラポーズ分布を明示的にエンコードすることで,合成学習した深度予測器の一般化性能が向上することを示す。
関連論文リスト
- Fixing the Scale and Shift in Monocular Depth For Camera Pose Estimation [47.68705641608316]
本稿では,2つのカメラ間の相対的なポーズを,関連する単眼深度に対応する点対応から推定する新しい枠組みを提案する。
2台の校正カメラ, 2台の未校正カメラ, 2台の未校正カメラ, 2台の未校正カメラ, 3台の未校正カメラ, 3台の非校正カメラ, 3台の非校正カメラの焦点長を比較検討した。
従来の研究と比較すると、我々の解法は2つの大規模な実世界のデータセットに対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-01-13T23:13:33Z) - ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文 参考訳(メタデータ) (2024-08-16T22:45:46Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - A Probabilistic Framework for Visual Localization in Ambiguous Scenes [64.13544430239267]
本稿では,カメラポーズの任意の形状の後部分布を予測する確率的枠組みを提案する。
我々は、予測分布からサンプリングできる変分推論を用いて、カメラポーズ回帰の新たな定式化によってこれを行う。
本手法は,不明瞭なシーンの局所化において,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-01-05T14:46:54Z) - Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文 参考訳(メタデータ) (2022-12-08T18:59:02Z) - Reassessing the Limitations of CNN Methods for Camera Pose Regression [27.86655424544118]
本稿では,カメラのポーズを直接画像から復元できるモデルを提案する。
まず、レグレッションメソッドがまだ最先端にある理由を分析し、新しいアプローチでパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2021-08-16T17:55:26Z) - Towards Accurate Human Pose Estimation in Videos of Crowded Scenes [134.60638597115872]
我々は、時間的文脈を利用して新しいデータを収集する視点から、混雑したシーンのビデオにおける人間のポーズ推定を改善することに注力する。
あるフレームについては、過去のフレームから過去のポーズを転送し、その後のフレームから現在のフレームへ未来的なポーズを後退させ、ビデオにおける安定した人間のポーズ推定に繋がる。
このようにして、HIEチャレンジのテストデータセット上で、13本中7本、56.33本の平均w_APで最高の性能を達成する。
論文 参考訳(メタデータ) (2020-10-16T13:19:11Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Unsupervised Learning of Camera Pose with Compositional Re-estimation [10.251550038802343]
入力ビデオシーケンスが与えられた場合、カメラのポーズ(つまりカメラの動き)を連続フレーム間で推定する。
本稿では,カメラポーズ推定のための合成再推定手法を提案する。
我々のアプローチは、予測されたカメラの動きを量的にも視覚的にも著しく改善する。
論文 参考訳(メタデータ) (2020-01-17T18:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。