論文の概要: Vid2CAD: CAD Model Alignment using Multi-View Constraints from Videos
- arxiv url: http://arxiv.org/abs/2012.04641v1
- Date: Tue, 8 Dec 2020 18:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:13:11.723532
- Title: Vid2CAD: CAD Model Alignment using Multi-View Constraints from Videos
- Title(参考訳): Vid2CAD:ビデオからのマルチビュー制約を用いたCADモデルアライメント
- Authors: Kevis-Kokitsi Maninis, Stefan Popov, Matthias Nie{\ss}ner, Vittorio
Ferrari
- Abstract要約: 複数のオブジェクトを含む複雑なシーンの映像シーケンスにCADモデルを整列させる作業に対処する。
提案手法では,任意のビデオの処理が可能で,各オブジェクトに対する9つのDoFポーズを自動的に復元し,共通3次元座標フレームに整列させる。
- 参考スコア(独自算出の注目度): 48.69114433364771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the task of aligning CAD models to a video sequence of a complex
scene containing multiple objects. Our method is able to process arbitrary
videos and fully automatically recover the 9 DoF pose for each object appearing
in it, thus aligning them in a common 3D coordinate frame. The core idea of our
method is to integrate neural network predictions from individual frames with a
temporally global, multi-view constraint optimization formulation. This
integration process resolves the scale and depth ambiguities in the per-frame
predictions, and generally improves the estimate of all pose parameters. By
leveraging multi-view constraints, our method also resolves occlusions and
handles objects that are out of view in individual frames, thus reconstructing
all objects into a single globally consistent CAD representation of the scene.
In comparison to the state-of-the-art single-frame method Mask2CAD that we
build on, we achieve substantial improvements on Scan2CAD (from 11.6% to 30.2%
class average accuracy).
- Abstract(参考訳): 複数のオブジェクトを含む複雑なシーンの映像シーケンスにCADモデルを整列させる作業に対処する。
提案手法では,任意のビデオの処理が可能で,各オブジェクトに対する9つのDoFポーズを自動的に復元し,共通3次元座標フレームに整列させる。
本手法の中核となる考え方は,個々のフレームからのニューラルネットワーク予測と時間的大域多視点制約最適化の定式化を統合することである。
この統合プロセスはフレーム毎の予測のスケールと深さの曖昧さを解消し、一般的にすべてのポーズパラメータの見積もりを改善する。
また,マルチビュー制約を利用することで,個々のフレームで見えないオブジェクトのオクルージョンを解消し,すべてのオブジェクトを単一のグローバルに一貫したcad表現に再構成する。
私たちが構築した最先端のシングルフレーム手法であるMask2CADと比較して、Scan2CAD(平均精度は11.6%から30.2%)を大幅に改善した。
関連論文リスト
- Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Sparse Multi-Object Render-and-Compare [33.97243145891282]
一つの画像から静的な物体の3次元形状とポーズを再構築することは、様々な産業にとって重要な課題である。
直接3D形状を予測することで、非現実的で、過度に滑らかになったり、刻まれた形になる。
CADモデルを取得することで、現実的な形状が保証されるが、堅牢で正確なアライメントが必要である。
論文 参考訳(メタデータ) (2023-10-17T12:01:32Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - SPARC: Sparse Render-and-Compare for CAD model alignment in a single RGB
image [21.77811443143683]
1つの画像から3D形状と静止物体のポーズを推定することは、ロボット工学、拡張現実、デジタルコンテンツ作成に重要な応用となる。
我々は、正規化されたオブジェクト座標に依存するよりも、スパースで反復的で、レンダリング・アンド・コンパレントなアプローチの方が正確で堅牢であることを示した。
我々のアライメント手順は、わずか3回のイテレーションで収束し、挑戦的な実世界のデータセットであるScanNetの最先端のパフォーマンスを改善します。
論文 参考訳(メタデータ) (2022-10-03T16:02:10Z) - RayTran: 3D pose estimation and shape reconstruction of multiple objects
from videos with ray-traced transformers [41.499325832227626]
RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。
我々は、画像形成過程に関する知識を活用して、注意重み行列を著しく分散させる。
従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2022-03-24T18:49:12Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - SceneCAD: Predicting Object Alignments and Layouts in RGB-D Scans [24.06640371472068]
本稿では,コモディティRGB-Dセンサからスキャンした3D環境の軽量CADによる表現を再構築する手法を提案する。
私たちのキーとなるアイデアは、CADモデルのアライメントとスキャンされたシーンのレイアウト推定の両方を共同で最適化することです。
論文 参考訳(メタデータ) (2020-03-27T20:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。