Fugu-MT 論文翻訳(概要): PoseGAN: A Pose-to-Image Translation Framework for Camera Localization

論文の概要: PoseGAN: A Pose-to-Image Translation Framework for Camera Localization

arxiv url: http://arxiv.org/abs/2006.12712v1
Date: Tue, 23 Jun 2020 03:15:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 23:36:49.318168
Title: PoseGAN: A Pose-to-Image Translation Framework for Camera Localization
Title（参考訳）: PoseGAN: カメラローカライゼーションのためのPose-to-Image翻訳フレームワーク
Authors: Kanglin Liu and Qing Li and Guoping Qiu
Abstract要約: 本稿では,pse-to-image翻訳の実装のための条件付き生成対向ネットワーク(cGAN)ベースのフレームワークであるPoseGANを提案する。 PoseGANは、カメラのローカライゼーションを行うための距離メートル法に基づく条件判別器や、生成されたカメラ画像のポーズ推定技術など、多くの革新を特徴としている。
参考スコア（独自算出の注目度）: 19.633294610139234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Camera localization is a fundamental requirement in robotics and computer vision. This paper introduces a pose-to-image translation framework to tackle the camera localization problem. We present PoseGANs, a conditional generative adversarial networks (cGANs) based framework for the implementation of pose-to-image translation. PoseGANs feature a number of innovations including a distance metric based conditional discriminator to conduct camera localization and a pose estimation technique for generated camera images as a stronger constraint to improve camera localization performance. Compared with learning-based regression methods such as PoseNet, PoseGANs can achieve better performance with model sizes that are 70% smaller. In addition, PoseGANs introduce the view synthesis technique to establish the correspondence between the 2D images and the scene, \textit{i.e.}, given a pose, PoseGANs are able to synthesize its corresponding camera images. Furthermore, we demonstrate that PoseGANs differ in principle from structure-based localization and learning-based regressions for camera localization, and show that PoseGANs exploit the geometric structures to accomplish the camera localization task, and is therefore more stable than and superior to learning-based regressions which rely on local texture features instead. In addition to camera localization and view synthesis, we also demonstrate that PoseGANs can be successfully used for other interesting applications such as moving object elimination and frame interpolation in video sequences.
Abstract（参考訳）: カメラのローカライゼーションはロボットとコンピュータビジョンの基本的な要件である。本稿では,カメラのローカライゼーション問題に対処するためのポーズ・ツー・イメージ翻訳フレームワークを提案する。本稿では,pse-to-image翻訳の実装のための条件付き生成対向ネットワーク(cGAN)ベースのフレームワークであるPoseGANを提案する。 PoseGANは、カメラのローカライゼーションを行う距離メートル法に基づく条件判別器や、カメラのローカライゼーション性能を改善するための強い制約として生成されたカメラ画像のポーズ推定技術など、多くの革新を特徴としている。 PoseNetのような学習ベースの回帰手法と比較して、PoseGANsは70%小さいモデルサイズでより良いパフォーマンスを達成することができる。また、2d画像とシーンの対応を確立するためにビュー合成技術も導入されており、ポーズが与えられると、対応するカメラ画像を合成することができる。さらに,ポセガンは,カメラの局所化や学習に基づく回帰とは原理的に異なることを示し,ポセガンが幾何学的構造を利用してカメラの局所化タスクを遂行していることを示し,それゆえ,局所的なテクスチャ特徴に依存する学習ベースの回帰よりもより安定であることを示した。カメラのローカライゼーションやビュー合成に加えて,PoseGANsは動画シーケンスにおける移動物体の除去やフレーム補間など,他の興味深い応用にも有効であることを示す。

関連論文リスト

A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文参考訳（メタデータ） (2025-04-24T15:08:36Z)
LPA3D: 3D Room-Level Scene Generation from In-the-Wild Images [23.258004561060563]
LPA-GAN(LPA-GAN)は、LPAのカメラポーズの先行を推定するために、特定の修正を組み込んだ新しいNeRFベースの生成手法である。本手法は,ビュー・ツー・ビューの整合性とセマンティック・ノーマル性に優れる。
論文参考訳（メタデータ） (2025-04-03T07:18:48Z)
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳（メタデータ） (2025-02-17T18:54:05Z)
SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文参考訳（メタデータ） (2024-07-11T05:46:35Z)
VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文参考訳（メタデータ） (2024-03-25T17:47:03Z)
Learning Neural Volumetric Pose Features for Camera Localization [47.06118952014523]
本稿では,PoseMapと呼ばれるニューラルボリュームポーズ機能を導入し,カメラのローカライゼーションを強化した。我々のフレームワークは、拡張されたNeRFモジュールとともにAPR(Absolute Pose Regression)アーキテクチャを活用している。室内および屋外のベンチマークシーンで平均14.28%, 20.51%の性能向上が得られた。
論文参考訳（メタデータ） (2024-03-19T15:01:18Z)
Pose-Free Generalizable Rendering Transformer [72.47072706742065]
PF-GRTは、Generalizable Rendering Transformer用のPose-Freeフレームワークである。 PF-GRTは局所相対座標系を用いてパラメータ化される。データセットのゼロショットレンダリングによる実験では、フォトリアリスティック画像の生成において、優れた品質が得られることが明らかになった。
論文参考訳（メタデータ） (2023-10-05T17:24:36Z)
ContraNeRF: 3D-Aware Generative Model via Contrastive Learning with Unsupervised Implicit Pose Embedding [40.36882490080341]
暗黙のポーズ埋め込みを用いたコントラスト学習による新しい3D認識型GAN最適化手法を提案する。判別器は、与えられた画像から高次元の暗黙のポーズ埋め込みを推定し、ポーズ埋め込みについて対照的な学習を行う。提案手法は、カメラのポーズを検索したり推定したりしないため、標準カメラのポーズが未定義であるデータセットに使用できる。
論文参考訳（メタデータ） (2023-04-27T07:53:13Z)
RelPose: Predicting Probabilistic Relative Rotation for Single Objects in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文参考訳（メタデータ） (2022-08-11T17:59:59Z)
ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。 (ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文参考訳（メタデータ） (2022-05-05T13:33:25Z)
TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。 TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文参考訳（メタデータ） (2021-05-28T19:08:43Z)
GNeRF: GAN-based Neural Radiance Field without Posed Camera [67.80805274569354]
gnerf(generative adversarial networks (gan) とニューラルネットワークのラジアンスフィールド再構成を組み合わせるためのフレームワーク)を,未知のカメラポーズでさえも複雑なシナリオで導入する。提案手法は, 従来は非常に難易度の高い, 繰り返しパターンや低テクスチャの場面において, ベースラインを良好に向上させる。
論文参考訳（メタデータ） (2021-03-29T13:36:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。