Fugu-MT 論文翻訳(概要): Multi-View Object Pose Refinement With Differentiable Renderer

論文の概要: Multi-View Object Pose Refinement With Differentiable Renderer

arxiv url: http://arxiv.org/abs/2207.02811v1
Date: Wed, 6 Jul 2022 17:02:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-07 14:14:42.216946
Title: Multi-View Object Pose Refinement With Differentiable Renderer
Title（参考訳）: 微分可能なレンダラーを用いた多視点オブジェクトポスリファインメント
Authors: Ivan Shugurov, Ivan Pavlov, Sergey Zakharov, Slobodan Ilic
Abstract要約: 本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を報告した。
参考スコア（独自算出の注目度）: 22.040014384283378
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a novel multi-view 6 DoF object pose refinement approach focusing on improving methods trained on synthetic data. It is based on the DPOD detector, which produces dense 2D-3D correspondences between the model vertices and the image pixels in each frame. We have opted for the use of multiple frames with known relative camera transformations, as it allows introduction of geometrical constraints via an interpretable ICP-like loss function. The loss function is implemented with a differentiable renderer and is optimized iteratively. We also demonstrate that a full detection and refinement pipeline, which is trained solely on synthetic data, can be used for auto-labeling real data. We perform quantitative evaluation on LineMOD, Occlusion, Homebrewed and YCB-V datasets and report excellent performance in comparison to the state-of-the-art methods trained on the synthetic and real data. We demonstrate empirically that our approach requires only a few frames and is robust to close camera locations and noise in extrinsic camera calibration, making its practical usage easier and more ubiquitous.
Abstract（参考訳）: 本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。我々は、ICPのような損失関数による幾何学的制約の導入を可能にするため、複数のフレームの相対的カメラ変換の利用を選択した。損失関数は微分可能なレンダラーで実装され、反復的に最適化される。また、合成データのみに基づいてトレーニングされた完全な検出・精錬パイプラインが、実データの自動ラベル付けに利用できることを示す。また,LineMOD,Occlusion,HomebrewedおよびYCB-Vデータセットの定量的評価を行い,合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を示した。実験により,本手法は数フレームしか必要とせず,遠距離カメラキャリブレーションにおいてカメラの位置やノイズを閉じるのに頑健であり,実用的利用が容易かつユビキタスであることを実証した。

関連論文リスト

Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文参考訳（メタデータ） (2024-12-19T03:39:13Z)
FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文参考訳（メタデータ） (2024-09-11T18:58:16Z)
Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文参考訳（メタデータ） (2023-09-30T18:52:57Z)
Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文参考訳（メタデータ） (2023-07-11T17:58:31Z)
Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文参考訳（メタデータ） (2022-04-12T15:03:51Z)
RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文参考訳（メタデータ） (2022-03-24T06:24:55Z)
Camera Distortion-aware 3D Human Pose Estimation in Video with Optimization-based Meta-Learning [23.200130129530653]
歪みのないデータセットでトレーニングされた既存の3次元ポーズ推定アルゴリズムは、特定のカメラ歪みのある新しいシナリオに適用した場合、パフォーマンス低下を被る。本研究では, 歪み環境に迅速に適応できる簡易かつ効果的な3次元ポーズ推定モデルを提案する。
論文参考訳（メタデータ） (2021-11-30T01:35:04Z)
Differentiable Rendering with Perturbed Optimizers [85.66675707599782]
2Dイメージプロジェクションから3Dシーンを推論することは、コンピュータビジョンにおける中核的な問題の一つだ。我々の研究は、よく知られた微分可能な定式化とランダムなスムーズなレンダリングの関連性を強調している。提案手法を3次元シーン再構成に適用し,その利点を6次元ポーズ推定と3次元メッシュ再構成の課題に適用した。
論文参考訳（メタデータ） (2021-10-18T08:56:23Z)
Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文参考訳（メタデータ） (2021-07-08T15:19:36Z)
Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文参考訳（メタデータ） (2020-06-29T12:53:58Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。