Fugu-MT 論文翻訳(概要): Camera Pose Matters: Improving Depth Prediction by Mitigating Pose Distribution Bias

論文の概要: Camera Pose Matters: Improving Depth Prediction by Mitigating Pose Distribution Bias

arxiv url: http://arxiv.org/abs/2007.03887v2
Date: Sun, 28 Mar 2021 05:51:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-12 13:15:19.261360
Title: Camera Pose Matters: Improving Depth Prediction by Mitigating Pose Distribution Bias
Title（参考訳）: カメラポーズ問題:姿勢分布バイアス緩和による深度予測の改善
Authors: Yunhan Zhao, Shu Kong, Charless Fowlkes
Abstract要約: トレーニングと予測中にカメラのポーズを利用する2つの新しい手法を提案する。まず、より多様な視点で新しいトレーニング例を合成する、シンプルな視点対応データ拡張を提案する。次に,画像当たりのカメラポーズを先行知識として利用し,入力の一部として符号化する条件モデルを提案する。
参考スコア（独自算出の注目度）: 12.354076490479516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monocular depth predictors are typically trained on large-scale training sets which are naturally biased w.r.t the distribution of camera poses. As a result, trained predictors fail to make reliable depth predictions for testing examples captured under uncommon camera poses. To address this issue, we propose two novel techniques that exploit the camera pose during training and prediction. First, we introduce a simple perspective-aware data augmentation that synthesizes new training examples with more diverse views by perturbing the existing ones in a geometrically consistent manner. Second, we propose a conditional model that exploits the per-image camera pose as prior knowledge by encoding it as a part of the input. We show that jointly applying the two methods improves depth prediction on images captured under uncommon and even never-before-seen camera poses. We show that our methods improve performance when applied to a range of different predictor architectures. Lastly, we show that explicitly encoding the camera pose distribution improves the generalization performance of a synthetically trained depth predictor when evaluated on real images.
Abstract（参考訳）: 単眼深度予測装置は通常、カメラポーズの分布に偏りがある大規模なトレーニングセットで訓練される。その結果、訓練された予測者は、珍しいカメラポーズで撮影されたサンプルをテストするために、信頼できる深さ予測を行うことができない。この問題に対処するために、トレーニングと予測中にカメラのポーズを利用する2つの新しい手法を提案する。まず、幾何学的に一貫した方法で既存のものを摂動することで、より多様な視点で新しいトレーニング例を合成する単純な視点対応データ拡張を提案する。次に,画像当たりのカメラポーズを先行知識として利用し,入力の一部として符号化する条件モデルを提案する。この2つの手法を共同で適用することで、撮影される画像の深度予測が向上することを示す。提案手法は,様々な予測アーキテクチャに適用することで性能が向上することを示す。最後に,実画像上で評価した場合,カメラポーズ分布を明示的にエンコードすることで,合成学習した深度予測器の一般化性能が向上することを示す。

関連論文リスト

ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文参考訳（メタデータ） (2024-08-16T22:45:46Z)
Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文参考訳（メタデータ） (2024-02-22T18:59:56Z)
A Probabilistic Framework for Visual Localization in Ambiguous Scenes [64.13544430239267]
本稿では,カメラポーズの任意の形状の後部分布を予測する確率的枠組みを提案する。我々は、予測分布からサンプリングできる変分推論を用いて、カメラポーズ回帰の新たな定式化によってこれを行う。本手法は,不明瞭なシーンの局所化において,既存の手法よりも優れる。
論文参考訳（メタデータ） (2023-01-05T14:46:54Z)
Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文参考訳（メタデータ） (2022-12-08T18:59:02Z)
CamLessMonoDepth: Monocular Depth Estimation with Unknown Camera Parameters [1.7499351967216341]
単眼深度推定の最近の進歩は、深度ニューラルネットワークをトレーニングし、地中真理データを必要としない逆深度とポーズを予測することによって、単一のカメラ入力からそのような知識を得ることが可能であることを示している。本研究では,単眼画像のみから学習することで,ピンホールカメラの内在を奥行きやポーズとともに暗黙的に推定する手法を提案する。
論文参考訳（メタデータ） (2021-10-27T10:54:15Z)
SPEC: Seeing People in the Wild with an Estimated Camera [64.85791231401684]
1枚の画像から視点カメラを推定する最初の3DHPS方式であるSPECを紹介する。我々は、視野、カメラピッチ、入力画像のロールを推定するためにニューラルネットワークを訓練する。次に、カメラキャリブレーションを画像の特徴に合わせてロールする新しいネットワークをトレーニングし、これらを組み合わせて3Dのボディ形状とポーズを復元する。
論文参考訳（メタデータ） (2021-10-01T19:05:18Z)
Reassessing the Limitations of CNN Methods for Camera Pose Regression [27.86655424544118]
本稿では,カメラのポーズを直接画像から復元できるモデルを提案する。まず、レグレッションメソッドがまだ最先端にある理由を分析し、新しいアプローチでパフォーマンスギャップを埋める。
論文参考訳（メタデータ） (2021-08-16T17:55:26Z)
Towards Accurate Human Pose Estimation in Videos of Crowded Scenes [134.60638597115872]
我々は、時間的文脈を利用して新しいデータを収集する視点から、混雑したシーンのビデオにおける人間のポーズ推定を改善することに注力する。あるフレームについては、過去のフレームから過去のポーズを転送し、その後のフレームから現在のフレームへ未来的なポーズを後退させ、ビデオにおける安定した人間のポーズ推定に繋がる。このようにして、HIEチャレンジのテストデータセット上で、13本中7本、56.33本の平均w_APで最高の性能を達成する。
論文参考訳（メタデータ） (2020-10-16T13:19:11Z)
Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-10-16T12:36:23Z)
Unsupervised Learning of Camera Pose with Compositional Re-estimation [10.251550038802343]
入力ビデオシーケンスが与えられた場合、カメラのポーズ(つまりカメラの動き)を連続フレーム間で推定する。本稿では,カメラポーズ推定のための合成再推定手法を提案する。我々のアプローチは、予測されたカメラの動きを量的にも視覚的にも著しく改善する。
論文参考訳（メタデータ） (2020-01-17T18:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。