Fugu-MT 論文翻訳(概要): Vid2CAD: CAD Model Alignment using Multi-View Constraints from Videos

論文の概要: Vid2CAD: CAD Model Alignment using Multi-View Constraints from Videos

arxiv url: http://arxiv.org/abs/2012.04641v1
Date: Tue, 8 Dec 2020 18:57:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-16 21:13:11.723532
Title: Vid2CAD: CAD Model Alignment using Multi-View Constraints from Videos
Title（参考訳）: Vid2CAD:ビデオからのマルチビュー制約を用いたCADモデルアライメント
Authors: Kevis-Kokitsi Maninis, Stefan Popov, Matthias Nie{\ss}ner, Vittorio Ferrari
Abstract要約: 複数のオブジェクトを含む複雑なシーンの映像シーケンスにCADモデルを整列させる作業に対処する。提案手法では,任意のビデオの処理が可能で,各オブジェクトに対する9つのDoFポーズを自動的に復元し,共通3次元座標フレームに整列させる。
参考スコア（独自算出の注目度）: 48.69114433364771
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the task of aligning CAD models to a video sequence of a complex scene containing multiple objects. Our method is able to process arbitrary videos and fully automatically recover the 9 DoF pose for each object appearing in it, thus aligning them in a common 3D coordinate frame. The core idea of our method is to integrate neural network predictions from individual frames with a temporally global, multi-view constraint optimization formulation. This integration process resolves the scale and depth ambiguities in the per-frame predictions, and generally improves the estimate of all pose parameters. By leveraging multi-view constraints, our method also resolves occlusions and handles objects that are out of view in individual frames, thus reconstructing all objects into a single globally consistent CAD representation of the scene. In comparison to the state-of-the-art single-frame method Mask2CAD that we build on, we achieve substantial improvements on Scan2CAD (from 11.6% to 30.2% class average accuracy).
Abstract（参考訳）: 複数のオブジェクトを含む複雑なシーンの映像シーケンスにCADモデルを整列させる作業に対処する。提案手法では,任意のビデオの処理が可能で,各オブジェクトに対する9つのDoFポーズを自動的に復元し,共通3次元座標フレームに整列させる。本手法の中核となる考え方は,個々のフレームからのニューラルネットワーク予測と時間的大域多視点制約最適化の定式化を統合することである。この統合プロセスはフレーム毎の予測のスケールと深さの曖昧さを解消し、一般的にすべてのポーズパラメータの見積もりを改善する。また,マルチビュー制約を利用することで,個々のフレームで見えないオブジェクトのオクルージョンを解消し,すべてのオブジェクトを単一のグローバルに一貫したcad表現に再構成する。私たちが構築した最先端のシングルフレーム手法であるMask2CADと比較して、Scan2CAD(平均精度は11.6%から30.2%)を大幅に改善した。

関連論文リスト

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation [72.89376712495464]
DAGEは、グローバルコヒーレンスを細部から切り離すデュアルストリームトランスフォーマーである。低解像度ストリームは、フレーム/言語的注意を交互に交互に付加したアグレッシブなダウンサンプリングフレームで動作し、ビュー一貫性表現を構築する。高解像度のストリームは、フレーム毎に元のイメージを処理し、シャープな境界と小さな構造を保存する。この設計は、解像度とクリップ長を独立にスケールし、2Kまでの入力をサポートし、実用的な推論コストを維持する。
論文参考訳（メタデータ） (2026-03-04T05:29:29Z)
End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer [7.19764062839405]
ビデオにおける多人数2Dポーズ推定のためのエンドツーエンドフレームワークを提案する。鍵となる課題は、複雑な時間軌道と重なり合う時間軌道の下で、個人をフレーム全体で関連付けることである。本稿では,フレーム内関係と時間デコーダのポーズをモデル化するための空間エンコーダを備えた新しいPose-Aware VideoErEr Network(PAVE-Net)を提案する。
論文参考訳（メタデータ） (2025-11-17T10:19:35Z)
WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。 WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-10-12T17:59:09Z)
One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image [44.8172828045897]
現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。本稿では,3次元シーンの復元と復元のための新しい手法であるCASTを提案する。
論文参考訳（メタデータ） (2025-02-18T14:29:52Z)
Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文参考訳（メタデータ） (2024-03-21T17:59:59Z)
Sparse Multi-Object Render-and-Compare [33.97243145891282]
一つの画像から静的な物体の3次元形状とポーズを再構築することは、様々な産業にとって重要な課題である。直接3D形状を予測することで、非現実的で、過度に滑らかになったり、刻まれた形になる。 CADモデルを取得することで、現実的な形状が保証されるが、堅牢で正確なアライメントが必要である。
論文参考訳（メタデータ） (2023-10-17T12:01:32Z)
Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文参考訳（メタデータ） (2023-04-13T11:32:36Z)
Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文参考訳（メタデータ） (2023-01-12T18:01:28Z)
WALDO: Future Video Synthesis using Object Layer Decomposition and Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文参考訳（メタデータ） (2022-11-25T18:59:46Z)
SPARC: Sparse Render-and-Compare for CAD model alignment in a single RGB image [21.77811443143683]
1つの画像から3D形状と静止物体のポーズを推定することは、ロボット工学、拡張現実、デジタルコンテンツ作成に重要な応用となる。我々は、正規化されたオブジェクト座標に依存するよりも、スパースで反復的で、レンダリング・アンド・コンパレントなアプローチの方が正確で堅牢であることを示した。我々のアライメント手順は、わずか3回のイテレーションで収束し、挑戦的な実世界のデータセットであるScanNetの最先端のパフォーマンスを改善します。
論文参考訳（メタデータ） (2022-10-03T16:02:10Z)
RayTran: 3D pose estimation and shape reconstruction of multiple objects from videos with ray-traced transformers [41.499325832227626]
RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。我々は、画像形成過程に関する知識を活用して、注意重み行列を著しく分散させる。従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能である。
論文参考訳（メタデータ） (2022-03-24T18:49:12Z)
Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文参考訳（メタデータ） (2021-04-06T03:49:35Z)
SceneCAD: Predicting Object Alignments and Layouts in RGB-D Scans [24.06640371472068]
本稿では,コモディティRGB-Dセンサからスキャンした3D環境の軽量CADによる表現を再構築する手法を提案する。私たちのキーとなるアイデアは、CADモデルのアライメントとスキャンされたシーンのレイアウト推定の両方を共同で最適化することです。
論文参考訳（メタデータ） (2020-03-27T20:17:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。